dibimbing.id - Panduan Data Cleaning dengan Python: Langkah & Contohnya

Panduan Data Cleaning dengan Python: Langkah & Contohnya

Farijihan Putri

13 December 2025

80

Image Banner

Hasil analisis sering meleset jauh gara-gara tumpukan data mentah yang masih kotor dan penuh error fatal? Warga Bimbingan pasti merasa frustasi kalau harus benerin ribuan baris missing values atau duplikasi satu per satu secara manual.

Solusi paling efektif buat ngatasin masalah ini adalah menguasai teknik data cleaning dengan Python yang bisa otomatisasi proses bersih-bersih data tersebut. Pemanfaatan library canggih seperti Pandas akan membantu pekerjaanmu jauh lebih efisien serta bebas dari kesalahan manusia yang merugikan.

MinDi sudah siapin panduan praktis beserta contoh kodenya biar kamu bisa langsung coba eksekusi di laptop sendiri sekarang juga. Keterampilan teknis ini merupakan fondasi vital bagi siapa saja yang berniat terjun total ke dunia profesional data. 

Buat kamu yang lebih suka belajar coding tatap muka (offline), Bootcamp Data Analyst Jakarta Dibimbing siap bantu bimbing proses belajarmu sampai mahir. Langsung saja simak ulasan lengkapnya biar data makin rapi dan valid untuk pengambilan keputusan bisnis!

Baca Juga: Bootcamp Data Analyst Offline Dibimbing: Upgrade Skill, Gaji Naik!


Apa itu Data Cleaning?

Data cleaning adalah proses krusial untuk mendeteksi sekaligus memperbaiki error atau ketidakkonsistenan yang ada di dalam dataset mentah.

Langkah bersih-bersih ini mencakup perbaikan nilai yang hilang (missing values), penghapusan duplikasi, hingga penyesuaian format yang berantakan agar siap diolah lebih lanjut. 

Warga Bimbingan gak boleh nyepelein tahapan ini karena kualitas input data akan nentuin seberapa akurat hasil analisis dan keputusan bisnis akhirnya nanti. 

Intinya, kalau sampah yang masuk, pasti sampah juga yang keluar (garbage in, garbage out), makanya data wajib steril sebelum masuk tahap pemodelan.

Baca Juga: Harga Bootcamp Data Analyst: Pengertian, Faktor, dan Tips


Langkah-Langkah Pemrograman Data Cleaning dengan Python

Sumber: Freepik

Berikut adalah 6 langkah praktikal dalam pemrograman data cleaning menggunakan Python:


1. Mengimport Library yang Dibutuhkan

Langkah pertama adalah mengimport library yang akan digunakan dalam data cleaning. Pandas adalah library utama untuk manipulasi data, sedangkan numpy membantu dalam operasi matematika dan array. 

Pastikan kamu sudah menginstal library tersebut sebelum melanjutkan ke tahap berikutnya.

import pandas as pd

import numpy as np


2. Memuat Dataset

Setelah mengimport library, langkah berikutnya adalah memuat dataset yang akan dibersihkan. Kamu bisa menggunakan fungsi read_csv() atau read_excel() dari pandas untuk memuat data dari file eksternal seperti CSV atau Excel. 

Pastikan file kamu berada di direktori yang benar atau masukkan path file secara lengkap.

df = pd.read_csv('data.csv')


3. Menghapus Duplikasi

Dataset sering mengandung data duplikat, yang dapat mengganggu analisis. Untuk membersihkan data, kita bisa menghapus baris yang memiliki nilai yang sama di semua kolom menggunakan fungsi drop_duplicates(). Hal ini memastikan bahwa data yang dianalisis tidak terpengaruh oleh entri yang berulang.

df = df.drop_duplicates()


4. Mengatasi Data yang Hilang

Data yang hilang (NaN) bisa mengganggu analisis dan perlu diatasi. Kamu bisa memilih untuk mengisi nilai hilang dengan rata-rata, median, atau nilai default lainnya menggunakan fillna(). Atau, jika diperlukan, kamu juga bisa menghapus baris yang mengandung nilai hilang dengan dropna().

df.fillna(df.mean(), inplace=True) # Mengisi NaN dengan rata-rata


5. Menghapus Kolom yang Tidak Diperlukan

Beberapa kolom dalam dataset mungkin tidak relevan untuk analisis. Kamu dapat menghapus kolom-kolom tersebut menggunakan drop(). Hal ini membantu untuk memfokuskan data hanya pada informasi yang penting untuk analisis lebih lanjut.

df = df.drop(columns=['KolomTidakPerlu'])


6. Mengecek Tipe Data

Setiap kolom dalam dataset harus memiliki tipe data yang sesuai. Misalnya, kolom yang berisi tanggal harus memiliki tipe datetime dan kolom angka harus bertipe float atau int

Kamu bisa mengecek dan mengubah tipe data kolom menggunakan astype() atau to_datetime().

df['Tanggal'] = pd.to_datetime(df['Tanggal'])

df['Harga'] = df['Harga'].astype(float)

Baca Juga: Switch Career Data Analyst Masih Worth It? Panduan Lengkap


Cara Mengidentifikasi Missing Values dalam Python

Langkah awal yang gak boleh kamu skip adalah melacak keberadaan data kosong menggunakan library Pandas yang super powerful. Warga Bimbingan cukup ketik perintah .isna().sum() buat langsung mengetahui jumlah nilai yang hilang di setiap kolom secara otomatis dan akurat. 

Metode tersebut akan menampilkan ringkasan total missing values sehingga kamu bisa segera menentukan strategi penanganan yang tepat, entah itu mau dihapus atau diisi nilai lain.

Pemanfaatan visualisasi heatmap dari Seaborn juga bisa banget ngebantu kamu melihat pola kekosongan data secara visual biar gak ada satupun sel yang terlewat dari pengecekan.


Siap Mulai Karir Data Analyst Profesional?

Menguasai teknik cleaning data pakai Python menjadi fondasi wajib biar hasil analisis selalu akurat dan valid. Warga Bimbingan sekarang pasti udah sadar, data yang bersih adalah kunci utama di balik keputusan bisnis yang sukses. 

Kalau kamu tipe yang lebih paham belajar tatap muka, gabung aja ke Bootcamp Data Analyst Offline Jakarta dibimbing.id sekarang. Fasilitasnya super komplit, mulai dari 100+ sesi kelas offline di ruang modern, gratis mengulang kelas, sampai dampingan mentor 24/7 dan konsultasi privat 1-on-1

Kamu bakal dilatih lewat 15+ studi kasus riil, live coding test, kelas Bahasa Inggris, hingga magang 3 bulan biar siap terjun ke industri. Masa depan karirmu juga lebih aman karena 96% alumni terbukti sukses kerja lewat koneksi 840+ hiring partner.

Kalau ada pertanyaan, seperti "Apakah bisa untuk pemula?" atau "Lokasi belajarnya dimana?" konsultasi gratis aja di sini dibimbing.id pasti #BimbingSampeJadi Data Analyst andalan.

Author Image

Farijihan Putri

Farijihan is a passionate Content Writer with 3 years of experience in crafting compelling content, optimizing for SEO, and developing creative strategies for various brands and industries.

Hi!👋
Kalau kamu butuh bantuan,
hubungi kami via WhatsApp ya!