Apa Itu Data Outlier? Pengertian, Jenis, dan Contohnya
Irhan Hisyam Dwi Nugroho
•
18 Juli 2024
•
38646
Catatan Redaksi:
Artikel ini pertama kali diterbitkan pada Juli 2024 dan diperbarui pada 23 Juni 2026 untuk memastikan informasi tetap akurat dan relevan
Pernah menemukan satu atau dua data yang nilainya jauh berbeda dibandingkan data lainnya, warga bimbingan? Dalam analisis data, kondisi seperti ini dikenal sebagai data outlier dan bisa memengaruhi hasil analisis jika tidak ditangani dengan tepat.
Menurut MinDi, data outlier penting dipahami karena bisa muncul dari kesalahan input, kesalahan pengukuran, atau kejadian yang memang tidak biasa. Jadi, sebelum menarik kesimpulan dari data, kamu perlu mengecek apakah ada nilai ekstrem yang dapat memengaruhi hasil analisis.
Lalu, apa itu data outlier dan bagaimana cara mengenalinya? Di artikel ini, MinDi akan membahas pengertian data outlier, jenis-jenisnya, serta contoh yang sering ditemukan dalam analisis data.
Apa Itu Data Outlier?
Data outlier adalah data yang memiliki nilai jauh lebih tinggi atau lebih rendah dibandingkan sebagian besar data lainnya dalam satu kumpulan data.
Kemunculan outlier dapat disebabkan oleh berbagai faktor, seperti kesalahan input data, kesalahan pengukuran, atau kejadian yang memang jarang terjadi.
Dalam analisis data, outlier perlu diperhatikan karena dapat memengaruhi hasil perhitungan statistik, seperti rata-rata, tren, maupun model prediksi yang digunakan.
Oleh karena itu, seorang analis data perlu mengidentifikasi dan mengevaluasi data outlier terlebih dahulu sebelum mengambil kesimpulan atau membuat keputusan berdasarkan data tersebut.
Baca juga : Panduan Memilih Bootcamp Data Science Terbaik di 2026
Penyebab Terjadinya Data Outlier
Setelah memahami pengertiannya, warga bimbingan juga perlu tahu penyebab data outlier bisa muncul.
Dengan mengetahui penyebabnya, kamu dapat menentukan apakah outlier perlu dipertahankan atau ditangani sebelum proses analisis dilakukan.
1. Kesalahan Input Data
Salah satu penyebab paling umum munculnya data outlier adalah kesalahan saat memasukkan data ke dalam sistem, terutama ketika proses input masih dilakukan secara manual.
Misalnya, angka 100 ditulis menjadi 1.000 karena kesalahan pengetikan. Kesalahan seperti ini dapat menghasilkan nilai yang jauh berbeda dari data lainnya.
2. Kesalahan Pengukuran
Data outlier dapat muncul akibat alat ukur yang tidak akurat, proses pengukuran yang kurang tepat, atau gangguan teknis saat data dikumpulkan.
Sebagai contoh, sensor yang mengalami kerusakan dapat menghasilkan nilai yang tidak sesuai dengan kondisi sebenarnya. Akibatnya, data yang tercatat menjadi berbeda secara signifikan dibandingkan data lain dalam kumpulan yang sama.
3. Variasi Alami dalam Data
Tidak semua outlier berasal dari kesalahan karena beberapa nilai ekstrem memang dapat muncul secara alami dalam sebuah dataset.
Dalam suatu kumpulan data, terkadang terdapat individu, transaksi, atau objek yang memiliki karakteristik jauh berbeda dari mayoritas data lainnya. Meskipun terlihat tidak biasa, data tersebut tetap valid dan dapat memberikan insight yang berharga.
4. Peristiwa atau Kondisi Khusus
Kejadian tertentu dapat menyebabkan munculnya data yang berada jauh di luar pola normal, terutama ketika terjadi perubahan besar dalam aktivitas atau perilaku pengguna.
Misalnya, lonjakan penjualan saat promo besar-besaran atau peningkatan pengunjung website ketika sebuah konten menjadi viral.
Dalam kondisi seperti ini, outlier justru dapat membantu mengidentifikasi tren atau peristiwa penting yang sedang terjadi.
Baca juga : Panduan Cara Belajar Python untuk Data Scientist, Lengkap!
Jenis-Jenis Data Outlier
Sumber: Desain oleh Dibimbing
Data outlier dapat dibedakan berdasarkan karakteristik dan konteks kemunculannya dalam sebuah dataset. Memahami jenis-jenis outlier akan membantu warga bimbingan menentukan metode analisis dan penanganan yang paling sesuai.
1. Global Outlier
Global outlier adalah data yang memiliki nilai sangat berbeda dibandingkan sebagian besar data dalam suatu kumpulan data. Jenis outlier ini biasanya paling mudah dikenali karena nilainya berada jauh di atas atau di bawah pola umum yang terbentuk.
Data seperti ini sering muncul akibat kesalahan input, kesalahan pengukuran, atau kondisi yang memang sangat jarang terjadi. Karena perbedaannya cukup ekstrem, global outlier dapat memengaruhi hasil analisis statistik seperti rata-rata dan standar deviasi.
Sebagai contoh, sebuah perusahaan memiliki rata-rata penjualan harian antara 100 hingga 200 produk, tetapi terdapat satu hari dengan penjualan mencapai 10.000 produk. Nilai tersebut dapat dikategorikan sebagai global outlier karena berbeda jauh dari mayoritas data lainnya.
2. Contextual Outlier
Contextual outlier adalah data yang dianggap tidak normal hanya dalam konteks atau kondisi tertentu. Jika dilihat secara terpisah, nilainya mungkin terlihat wajar, tetapi menjadi tidak biasa ketika dibandingkan dengan situasi yang relevan.
Jenis outlier ini biasanya ditemukan pada data yang memiliki unsur waktu, lokasi, musim, atau kondisi tertentu. Oleh karena itu, konteks menjadi faktor penting untuk menentukan apakah suatu data termasuk outlier atau tidak.
Sebagai contoh, suhu udara 25°C mungkin tergolong normal pada siang hari. Namun, nilai yang sama bisa dianggap sebagai contextual outlier jika terjadi pada tengah malam di daerah yang biasanya memiliki suhu jauh lebih rendah.
3. Collective Outlier
Collective outlier terjadi ketika sekelompok data secara bersama-sama menunjukkan pola yang berbeda dari mayoritas data lainnya. Menariknya, setiap data dalam kelompok tersebut mungkin terlihat normal jika dianalisis secara individu.
Jenis outlier ini lebih sulit dideteksi karena memerlukan analisis terhadap pola atau hubungan antar data. Collective outlier sering digunakan dalam bidang keamanan siber, analisis perilaku pengguna, dan deteksi kecurangan.
Sebagai contoh, beberapa transaksi perbankan dengan nominal kecil mungkin terlihat normal jika dilihat satu per satu. Namun, ketika transaksi tersebut terjadi berulang kali dalam waktu singkat dan membentuk pola tertentu, kumpulan data tersebut dapat dikategorikan sebagai collective outlier.
Baca juga : Panduan Analisis Data dengan Python Pandas, Mudah Dipelajari
Cara Mengidentifikasi Data Outlier
Sebelum memutuskan apakah sebuah data perlu dihapus atau dipertahankan, warga bimbingan perlu mengidentifikasi terlebih dahulu keberadaan outlier dalam dataset.
Ada beberapa metode yang umum digunakan untuk menemukan data outlier, baik melalui perhitungan statistik maupun visualisasi data.
1. Menggunakan Box Plot
Box plot merupakan salah satu metode visual yang paling sering digunakan untuk mendeteksi data outlier. Pada grafik ini, outlier biasanya ditampilkan sebagai titik yang berada di luar batas atas atau batas bawah distribusi data.
Metode ini membantu analis melihat penyebaran data dengan cepat tanpa perlu melakukan banyak perhitungan. Karena tampilannya sederhana dan mudah dipahami, box plot sering digunakan pada tahap awal eksplorasi data.
2. Menggunakan Metode Z-Score
Metode Z-Score digunakan untuk mengukur seberapa jauh suatu nilai berada dari rata-rata data dalam satuan standar deviasi. Semakin besar nilai Z-Score, semakin besar kemungkinan data tersebut merupakan outlier.
Umumnya, data dengan nilai Z-Score di atas 3 atau di bawah -3 dianggap sebagai outlier. Metode ini cocok digunakan pada data yang memiliki distribusi mendekati normal.
3. Menggunakan Interquartile Range (IQR)
Interquartile Range (IQR) merupakan metode statistik yang mengukur rentang antara kuartil pertama (Q1) dan kuartil ketiga (Q3). Data yang berada di luar batas tertentu berdasarkan nilai IQR akan dianggap sebagai outlier.
Metode ini cukup populer karena tidak terlalu terpengaruh oleh nilai ekstrem dalam dataset. Oleh sebab itu, IQR sering digunakan ketika distribusi data tidak normal atau memiliki banyak variasi nilai.
4. Menggunakan Visualisasi Data
Visualisasi data dapat membantu menemukan pola yang tidak biasa atau nilai yang menyimpang dari mayoritas data lainnya. Beberapa jenis visualisasi yang sering digunakan antara lain scatter plot, histogram, dan line chart.
Dengan melihat grafik, analis dapat lebih mudah mengenali nilai yang terlihat berbeda secara signifikan. Pendekatan ini juga membantu memahami konteks data sebelum menentukan langkah penanganan yang tepat.
Baca juga : Python untuk Data Analyst: Arti, Manfaat, Library, dan Tips
Contoh Data Outlier dalam Analisis Data
Data outlier dapat ditemukan di berbagai bidang dan jenis data. Dengan memahami contoh-contohnya, warga bimbingan akan lebih mudah mengenali outlier saat melakukan analisis data di dunia kerja.
1. Data Penjualan
Dalam data penjualan, outlier dapat muncul ketika terjadi lonjakan transaksi yang jauh lebih tinggi dibandingkan hari-hari biasanya. Kondisi ini sering terjadi saat perusahaan mengadakan promo besar, flash sale, atau kampanye pemasaran tertentu.
Sebagai contoh, sebuah toko online biasanya mencatat penjualan 100–200 produk per hari. Namun, saat mengadakan diskon besar, penjualan melonjak hingga 5.000 produk dalam sehari sehingga nilai tersebut menjadi outlier dalam dataset.
2. Data Pendapatan Karyawan
Outlier juga sering ditemukan pada data pendapatan atau gaji karyawan dalam sebuah perusahaan. Nilai yang sangat tinggi atau sangat rendah dibandingkan mayoritas data dapat memengaruhi hasil analisis rata-rata pendapatan.
Misalnya, sebagian besar karyawan memiliki gaji antara Rp5 juta hingga Rp15 juta per bulan. Namun, terdapat seorang direktur dengan gaji Rp200 juta per bulan yang dapat dikategorikan sebagai outlier.
3. Data Pengunjung Website
Dalam analisis digital marketing, outlier dapat muncul pada jumlah pengunjung website. Hal ini biasanya terjadi ketika sebuah konten viral atau mendapatkan eksposur yang jauh lebih besar dibandingkan konten lainnya.
Sebagai contoh, sebuah website biasanya memperoleh 2.000 pengunjung per hari. Namun, salah satu artikelnya viral dan menghasilkan 100.000 pengunjung dalam sehari sehingga menciptakan outlier pada data traffic.
4. Data Transaksi Keuangan
Pada sektor keuangan, outlier sering digunakan untuk membantu mendeteksi aktivitas yang tidak biasa atau berpotensi mencurigakan. Nilai transaksi yang jauh berbeda dari pola normal dapat menjadi indikator adanya risiko tertentu.
Misalnya, seorang nasabah biasanya melakukan transaksi sebesar Rp500 ribu hingga Rp2 juta per hari. Jika tiba-tiba terjadi transaksi sebesar Rp500 juta dalam satu waktu, data tersebut dapat dianggap sebagai outlier dan perlu ditinjau lebih lanjut.
5. Data Nilai Ujian
Dalam dunia pendidikan, data outlier dapat muncul pada hasil ujian atau penilaian siswa. Nilai yang sangat tinggi atau sangat rendah dibandingkan mayoritas peserta sering menjadi perhatian dalam proses evaluasi.
Sebagai contoh, sebagian besar siswa memperoleh nilai antara 70 hingga 90. Namun, terdapat satu siswa yang memperoleh nilai 100 atau nilai 10 sehingga nilainya terlihat berbeda secara signifikan dari kelompok lainnya.
Baca juga : Panduan Memilih Bootcamp Data Analyst untuk Karier Impianmu
Cara Mengatasi Data Outlier
Setelah data outlier berhasil diidentifikasi, kamu perlu menentukan langkah penanganan yang paling sesuai dengan tujuan analisis.
Berikut beberapa cara yang umum digunakan untuk mengatasi data outlier dalam sebuah dataset.
1. Memeriksa Kembali Kualitas Data
Sebelum mengambil tindakan apa pun, langkah pertama yang perlu dilakukan adalah memeriksa apakah outlier tersebut berasal dari kesalahan data.
Proses ini dapat dilakukan dengan mengecek sumber data, metode pengumpulan data, atau kemungkinan kesalahan saat input data. Jika ditemukan kesalahan, data dapat diperbaiki sehingga hasil analisis menjadi lebih akurat.
2. Menghapus Data Outlier
Penghapusan outlier dapat dilakukan apabila data tersebut terbukti tidak valid atau berasal dari kesalahan pencatatan.
Langkah ini bertujuan untuk mencegah nilai ekstrem memengaruhi hasil analisis secara berlebihan. Namun, sebelum menghapus data, pastikan outlier tersebut memang tidak memiliki nilai atau informasi yang penting.
3. Melakukan Transformasi Data
Transformasi data digunakan untuk mengurangi pengaruh outlier tanpa harus menghapusnya dari dataset.
Beberapa teknik yang sering digunakan antara lain log transformation, square root transformation, dan normalisasi data. Dengan cara ini, distribusi data dapat menjadi lebih seimbang sehingga proses analisis berjalan lebih optimal.
4. Menggunakan Metode Analisis yang Sesuai
Beberapa metode statistik dan machine learning dirancang agar tidak terlalu terpengaruh oleh data outlier.
Contohnya adalah penggunaan median sebagai pengganti rata-rata atau metode Interquartile Range (IQR) untuk analisis distribusi data.
Pendekatan ini memungkinkan outlier tetap dipertahankan tanpa memberikan dampak yang terlalu besar terhadap hasil analisis.
Ingin Menjadi Data Analyst atau Data Scientist?
Dalam dunia data, satu nilai ekstrem saja bisa mengubah hasil analisis secara signifikan. Karena itu, memahami data outlier menjadi langkah penting sebelum kamu menarik kesimpulan atau membuat keputusan berbasis data.
Yuk, ikuti Bootcamp Data Science & Data Analyst di Dibimbing! Kamu akan belajar langsung dari mentor berpengalaman melalui kurikulum aplikatif, mulai dari SQL, Python, data visualization, data analysis, hingga machine learning.
Tidak hanya belajar teori, kamu juga akan mengerjakan studi kasus dan project untuk memperkuat portofolio profesional. Dengan bimbingan mentor dan career support, proses belajarmu jadi lebih terarah dan relevan dengan kebutuhan industri.
Didukung oleh lebih dari 1.100+ hiring partner dan tingkat keberhasilan 96% lulusan, Dibimbing siap membantumu mempersiapkan karier di bidang data.
Jadi, tunggu apa lagi? Konsultasikan tujuan kariermu Disini dan mulai perjalanan menjadi Data Analyst atau Data Scientist bersama Dibimbing. #BimbingSampeJadi!
FAQ
1. Apa yang dimaksud dengan data outlier?
Data outlier adalah data yang memiliki nilai jauh lebih tinggi atau lebih rendah dibandingkan sebagian besar data lainnya dalam sebuah dataset. Nilai ini dapat muncul karena kesalahan data maupun kondisi yang memang tidak biasa terjadi.
2. Apakah data outlier harus selalu dihapus?
Tidak selalu. Jika outlier berasal dari kesalahan input atau pengukuran, data tersebut dapat diperbaiki atau dihapus. Namun, jika outlier mencerminkan kondisi nyata, data tersebut bisa memberikan insight yang berharga.
3. Bagaimana cara mengidentifikasi data outlier?
Data outlier dapat diidentifikasi menggunakan beberapa metode, seperti box plot, Z-Score, Interquartile Range (IQR), dan visualisasi data. Pemilihan metode biasanya disesuaikan dengan karakteristik dataset yang dianalisis.
4. Mengapa data outlier penting dalam analisis data?
Data outlier dapat memengaruhi hasil analisis, terutama pada perhitungan statistik seperti rata-rata dan standar deviasi. Oleh karena itu, keberadaannya perlu diperiksa agar hasil analisis menjadi lebih akurat dan dapat dipercaya.
Irhan Hisyam Dwi Nugroho
Irhan Hisyam Dwi Nugroho is an SEO Specialist and Content Writer with 4 years of experience in optimizing websites and writing relevant content for various brands and industries. Currently, I also work as a Content Writer at Dibimbing.id and actively share content about technology, SEO, and digital marketing through various platforms.
