15 Dataset untuk Project Data Engineering Pemula
Irhan Hisyam Dwi Nugroho
•
27 April 2026
•
111
Mau mulai belajar data engineering tapi masih ragu memilih dataset yang tepat? Warga Bimbingan, dataset yang sesuai bisa bikin proses belajar jadi lebih cepat dan tidak membingungkan.
Sering kali, pemula langsung pakai dataset yang terlalu kompleks sehingga sulit dipahami. Padahal, dengan dataset yang sederhana dan relevan, kamu bisa lebih fokus belajar ETL, data pipeline, dan pengolahan data.
Di artikel ini, kamu akan menemukan 15 dataset untuk project data engineering pemula yang bisa langsung kamu gunakan. Yuk, simak dan mulai bangun project pertamamu.
Baca juga: Panduan Memilih Bootcamp Data Engineering Terbaik untuk Karier
Apa Itu Dataset untuk Project?
Dataset untuk project adalah kumpulan data yang digunakan sebagai bahan utama dalam membuat atau mengembangkan sebuah project, terutama di bidang data engineering, data science, atau machine learning.
Data ini bisa berupa angka, teks, gambar, atau kombinasi dari berbagai format yang disusun agar bisa diolah dan dianalisis.
Dalam sebuah project, dataset berperan penting sebagai sumber informasi untuk melakukan proses seperti data cleaning, transformasi, hingga analisis.
Dengan dataset yang tepat, kamu bisa membangun pipeline data, menguji model, atau menghasilkan insight yang berguna sesuai tujuan project.
Baca juga: One Hot Encoding adalah: Arti, Manfaat, dan Penerapannya
Jenis Dataset untuk Project
Sumber: Canva
Dataset untuk project memiliki berbagai jenis tergantung dari sumber, struktur, dan cara penggunaannya.
Memahami jenis-jenis ini penting agar kamu bisa memilih yang sesuai dengan kebutuhan project. Berikut beberapa jenis dataset yang umum digunakan.
1. Dataset Publik
Dataset publik adalah kumpulan informasi yang tersedia secara bebas dan bisa diakses oleh siapa saja melalui berbagai platform online.
Biasanya dataset seperti ini disediakan oleh Kaggle, Google Dataset, lembaga pemerintah, atau organisasi riset. Jenis ini cocok untuk pemula karena mudah digunakan dan memiliki banyak pilihan topik.
2. Dataset Internal
Dataset internal adalah kumpulan informasi yang berasal dari dalam perusahaan atau organisasi dan biasanya hanya digunakan untuk kebutuhan tertentu.
Informasi di dalamnya tidak dibagikan ke publik karena berkaitan dengan operasional, pelanggan, atau proses bisnis. Jenis ini sering dimanfaatkan untuk analisis internal dan pengembangan sistem perusahaan.
3. Dataset Terstruktur
Dataset terstruktur adalah kumpulan informasi yang sudah tersusun rapi dalam format yang jelas, biasanya berbentuk tabel dengan baris dan kolom.
Umumnya format seperti ini disimpan dalam CSV, Excel, atau database relasional. Jenis ini sangat mudah diolah dan sering digunakan dalam project data engineering.
4. Dataset Tidak Terstruktur
Dataset tidak terstruktur adalah kumpulan informasi yang tidak memiliki format tetap, sehingga pengolahannya biasanya lebih kompleks dibanding jenis lainnya.
Contohnya berupa teks, gambar, audio, atau video. Jenis ini banyak digunakan dalam project AI dan machine learning.
5. Dataset Semi-Terstruktur
Dataset semi-terstruktur adalah kumpulan informasi yang memiliki pola tertentu, tetapi tidak seketat format tabel biasa.
Contohnya adalah JSON, XML, atau log file yang sering dipakai dalam sistem digital. Jenis ini sering digunakan dalam project berbasis API atau integrasi sistem.
Baca juga: Apa Itu DML? Pengertian, Perintah, dan Manfaat untuk Bisnis
Contoh Dataset untuk Project
Sumber: Canva
Mencari dataset yang cocok untuk project data engineering tidak bisa asal pilih, karena setiap dataset punya tantangan teknis yang berbeda.
Ada yang cocok untuk latihan ETL, ada yang lebih pas untuk streaming, dan ada juga yang bagus untuk membangun data warehouse. Berikut 15 contoh dataset yang bisa kamu gunakan untuk project data engineering.
1. New York City Taxi Trip Data
Dataset New York City Taxi Trip Data ini berisi jutaan catatan perjalanan taksi di New York, mulai dari titik jemput, tujuan, waktu perjalanan, sampai biaya yang dibayarkan. Volume yang besar membuatnya sangat cocok untuk latihan pengolahan data skala besar.
Kamu bisa memakai dataset ini untuk membangun pipeline batch processing yang menghitung total perjalanan atau pendapatan harian secara otomatis. Selain itu, dataset ini juga cocok untuk latihan partisi data berdasarkan waktu atau lokasi.
2. GitHub Archive
GitHub Archive menyimpan aktivitas publik di GitHub dalam bentuk event yang terus diperbarui. Formatnya banyak menggunakan JSON, sehingga cocok untuk latihan menangani data semi-terstruktur.
Project yang bisa kamu buat misalnya pipeline untuk mengekstrak event mentah menjadi tabel yang lebih rapi dan mudah dianalisis. Dataset ini juga bagus untuk belajar menangani perubahan skema yang cukup dinamis.
3. OpenAQ Global Air Quality
OpenAQ menyediakan data kualitas udara dari berbagai sensor di banyak negara. Karena tersedia melalui API publik, dataset ini sangat cocok untuk latihan ingestion data secara berkala.
Kamu bisa membangun alur pengambilan data otomatis yang berjalan setiap jam atau setiap hari. Dataset ini juga bagus untuk melatih orkestrasi workflow dengan tools seperti Airflow.
4. Wikipedia Clickstream
Wikipedia Clickstream menunjukkan bagaimana pengguna berpindah dari satu artikel ke artikel lain. Isinya sangat besar dan menarik untuk dianalisis karena menggambarkan hubungan antarhalaman dalam bentuk jaringan.
Dataset ini cocok untuk project yang melibatkan relasi antar-entitas dan optimasi query. Kamu juga bisa menggunakannya untuk latihan membangun sistem penyimpanan yang efisien untuk analisis link.
5. Amazon Customer Reviews
Dataset ini berisi jutaan ulasan pelanggan dalam bentuk teks mentah dari berbagai produk Amazon. Ukurannya besar dan jenis kontennya beragam, sehingga menantang untuk diproses.
Kamu bisa menggunakannya untuk membangun pipeline pembersihan teks dan transformasi data skala besar. Dataset ini juga sangat cocok untuk latihan distributed processing menggunakan Spark.
6. Common Crawl
Common Crawl merupakan kumpulan data web publik dengan ukuran yang sangat besar dan diperbarui secara rutin. Dataset ini sering dipakai untuk project yang melibatkan data lake atau data lakehouse.
Kamu bisa memanfaatkan Common Crawl untuk belajar mengubah data mentah menjadi format analitik seperti Parquet. Project ini juga cocok untuk memahami strategi penyimpanan data tidak terstruktur dalam skala besar.
7. Reddit Comments (Pushshift)
Dataset Reddit Comments berisi komentar dan postingan dari Reddit dalam jumlah yang sangat besar. Struktur percakapannya bertingkat, sehingga cocok untuk project yang lebih dinamis.
Kamu bisa membuat streaming pipeline untuk memproses komentar baru secara hampir real-time. Dataset ini juga sangat pas untuk latihan penggunaan Kafka atau message broker lain.
8. GDELT Project
GDELT adalah dataset global yang memantau berita dan mengubahnya menjadi data peristiwa dari berbagai negara. Update yang sangat sering membuatnya menarik untuk latihan sistem data dengan frekuensi tinggi.
Kamu bisa membangun data warehouse yang menerima pembaruan berkala dan tetap menjaga konsistensi data. Dataset ini juga bagus untuk latihan sinkronisasi antara data mentah dan tabel analitik.
9. LendingClub Loan Data
Dataset LendingClub berisi data historis pinjaman, termasuk profil peminjam dan status pembayaran. Karena memuat informasi finansial, dataset ini cocok untuk project yang berkaitan dengan keamanan dan kualitas data.
Kamu bisa menggunakannya untuk latihan anonimisasi, masking, atau enkripsi data sensitif. Selain itu, dataset ini juga pas untuk membangun pipeline validasi angka dan konsistensi data finansial.
10. Business Directory atau Yellow Pages
Dataset direktori bisnis biasanya memuat nama bisnis, alamat, kategori, dan lokasi. Dataset seperti ini sering memiliki masalah duplikasi atau inkonsistensi informasi.
Kamu bisa membuat project entity matching untuk menggabungkan catatan yang sebenarnya merujuk pada bisnis yang sama. Dataset ini juga sangat berguna untuk latihan deduplication dalam pipeline data.
11. Google Community Mobility Reports
Dataset ini mencatat perubahan mobilitas masyarakat di berbagai jenis lokasi, seperti taman, kantor, dan pusat belanja. Struktur waktunya jelas, sehingga cocok untuk project time-series dan data historis.
Kamu bisa membangun pipeline otomatis yang memperbarui dashboard mobilitas secara berkala. Dataset ini juga bagus untuk latihan menjaga integritas data historis yang terus bertambah.
12. Stack Overflow Developer Survey
Dataset survei Stack Overflow berisi jawaban ribuan developer tentang gaji, tools, bahasa pemrograman, dan kebiasaan kerja. Kolomnya cukup banyak dan tipenya beragam, sehingga cocok untuk latihan profiling data.
Kamu bisa menggunakannya untuk membangun proses ETL yang mengubah jawaban survei menjadi skema yang lebih rapi. Dataset ini juga pas untuk project data warehouse sederhana berbasis star schema.
13. Instacart Market Basket Analysis
Dataset Instacart berisi jutaan transaksi pelanggan dan daftar produk yang mereka beli. Hubungan antar tabelnya cukup kompleks, sehingga cocok untuk latihan pemodelan data relasional.
Kamu bisa memakai dataset ini untuk membuat pipeline analitik penjualan dan perilaku belanja pelanggan. Project ini juga relevan untuk latihan query bisnis di sektor retail dan e-commerce.
14. COVID-19 Data Repository
Dataset COVID-19 dari JHU berisi statistik harian dari berbagai negara dan wilayah. Sumbernya berasal dari banyak file yang perlu digabungkan, sehingga cocok untuk latihan cleaning dan integrasi data.
Kamu bisa membangun pipeline otomatis yang menggabungkan berbagai sumber menjadi satu tabel terpusat. Dataset ini sangat bagus untuk belajar menjaga reliability saat format dan sumber data sering berubah.
15. Crypto Currency Historical Prices
Dataset harga cryptocurrency mencatat perubahan harga dalam interval waktu yang sangat rapat, bahkan per menit. Karena bersifat time-series dan volumenya besar, dataset ini cocok untuk latihan penyimpanan data historis yang efisien.
Kamu bisa membangun sistem ingestion untuk menyimpan dan memproses harga secara berkala. Dataset ini juga pas untuk belajar strategi retensi data agar penyimpanan tetap hemat tetapi query tetap cepat.
Baca juga: Feature Engineering: Panduan Lengkap untuk Pemula dalam ML
Cara Memilih Dataset yang Tepat
Memilih dataset yang tepat akan membantu project kamu lebih terarah dan mudah dikerjakan. Berikut 4 cara yang bisa kamu gunakan.
1. Sesuaikan dengan Tujuan Project
Pastikan dataset yang kamu pilih benar-benar sesuai dengan tujuan dan jenis project yang ingin dibuat agar proses pengerjaan lebih terarah.
Dataset yang relevan akan memudahkan kamu dalam proses pengolahan dan analisis. Dengan begitu, hasil project juga jadi lebih maksimal.
2. Perhatikan Ukuran Dataset
Ukuran dataset perlu disesuaikan dengan level kemampuan dan kebutuhan project yang sedang kamu kerjakan.
Dataset yang terlalu besar bisa sulit dikelola, sedangkan yang terlalu kecil kurang menantang. Pilih ukuran yang seimbang agar tetap efektif untuk belajar.
3. Cek Kualitas Data
Pastikan dataset yang digunakan memiliki struktur yang jelas dan tidak terlalu banyak kesalahan atau missing value.
Data yang rapi akan memudahkan proses cleaning dan transformasi. Namun, sedikit error tetap bisa jadi latihan yang bagus.
4. Perhatikan Format dan Akses
Pilih dataset dengan format yang sesuai dengan tools yang kamu gunakan agar lebih mudah diproses.
Format seperti CSV atau JSON biasanya lebih fleksibel untuk berbagai kebutuhan. Selain itu, pastikan dataset mudah diakses agar tidak menghambat pengerjaan project.
Baca juga: 10 Contoh Data Engineer Portfolio dan Cara Membuatnya
Ingin Jadi Data Engineer Profesional?
Kalau kamu ingin punya skill yang relevan di dunia data, sekarang saatnya mulai belajar data engineering secara lebih terarah. Peran data engineer semakin dibutuhkan untuk mengelola dan memastikan data siap digunakan secara optimal.
Yuk, ikuti Bootcamp Data Engineering di Dibimbing! Di sini, kamu akan belajar membangun data pipeline, proses ETL, data warehouse, hingga pengolahan data skala besar dengan kurikulum yang aplikatif dan sesuai kebutuhan industri.
Belajar langsung bersama mentor berpengalaman dengan pendekatan praktis dan berbasis project nyata. Proses ini akan membantumu memahami alur kerja data engineering sekaligus membangun portofolio yang relevan.
Dengan dukungan 840+ hiring partner dan 96% alumni berhasil mendapatkan pekerjaan, peluang kariermu di dunia data semakin terbuka lebar.
Jadi, tunggu apa lagi? Hubungi di sini dan daftar sekarang di Dibimbing untuk mulai perjalananmu sebagai Data Engineer profesional. #BimbingSampeJadi!
FAQ
1. Apa itu dataset untuk project?
Dataset untuk project adalah kumpulan data yang digunakan sebagai bahan utama dalam analisis, pengolahan, atau pengembangan sistem. Dataset ini bisa berupa angka, teks, atau kombinasi berbagai format.
2. Di mana bisa mendapatkan dataset untuk project?
Kamu bisa mendapatkan dataset dari platform seperti Kaggle, Google Dataset, atau situs open data pemerintah. Selain itu, dataset juga bisa diambil melalui API atau hasil scraping.
3. Dataset seperti apa yang cocok untuk pemula?
Dataset dengan ukuran kecil hingga menengah dan struktur yang rapi lebih cocok untuk pemula. Hal ini memudahkan proses belajar tanpa terlalu banyak kendala teknis.
4. Apakah dataset gratis bisa digunakan untuk project?
Ya, banyak dataset gratis yang bisa digunakan untuk project, terutama dari sumber publik. Namun, tetap perhatikan lisensi penggunaan sebelum digunakan.
Tags
Irhan Hisyam Dwi Nugroho
Irhan Hisyam Dwi Nugroho is an SEO Specialist and Content Writer with 4 years of experience in optimizing websites and writing relevant content for various brands and industries. Currently, I also work as a Content Writer at Dibimbing.id and actively share content about technology, SEO, and digital marketing through various platforms.
