dibimbing.id - 10 Ide Proyek untuk Portofolio Data Engineer 2026, Wajib Coba!

10 Ide Proyek untuk Portofolio Data Engineer 2026, Wajib Coba!

Farijihan Putri

08 December 2025

304

Image Banner

Warga Bimbingan pasti sering bingung mencari ide proyek untuk portofolio data engineer yang benar-benar valid dan relevan dengan kebutuhan industri tahun 2026. 

Masalah klasik lulusan baru adalah tumpukan sertifikat teori yang sayangnya tidak cukup kuat untuk meyakinkan hiring manager tanpa adanya bukti karya nyata. CV kamu berisiko besar ditolak sistem ATS jika hanya berisi daftar skill tanpa penerapan teknis yang bisa diverifikasi secara langsung. 

MinDi melihat banyak talenta potensial gagal dapat kerja cuma karena portofolio mereka terlalu generik atau sekadar hasil copy-paste tutorial usang. Daftar proyek di artikel ini dikurasi khusus untuk menunjukkan kemampuanmu mengelola pipeline data dari hulu ke hilir secara profesional dan meyakinkan. 

Yuk, pilih satu topik menantang di bawah ini dan ubah statusmu dari pemula menjadi kandidat siap kerja yang kompeten.

Baca Juga: 10 Rekomendasi Data Engineer Certification dan Manfaatnya


10 Ide Proyek untuk Portofolio Data Engineer

Sumber: Freepik

Langsung aja yuk simak 10 ide proyek yang bisa kamu pakai untuk portofolio data engineer. 


1. Analisis Tren Musik Spotify

Platform hiburan butuh rekomendasi personal yang akurat untuk menjaga pengguna tetap betah dan menyusun strategi pemasaran yang tepat. 

Di proyek ini, Warga Bimbingan akan melakukan proses ETL lengkap mulai dari menampung data mentah di Google Cloud Storage, memprosesnya dengan PySpark, hingga menyimpannya secara terstruktur di BigQuery. Hasil akhirnya adalah dashboard interaktif di Looker yang menampilkan tren genre dan pola waktu dengar pengguna secara nyata.

  1. Tech Stack: PySpark, Google Cloud Storage (GCS), BigQuery, Looker
  2. Dataset: Spotify Million Playlist Dataset
  3. Skill Dibutuhkan: Data Transformation (PySpark), Cloud Data Warehousing, Dashboard Design


2. Analisis Sentimen Ulasan Produk Shopee/Tokopedia

Platform e-commerce besar di Indonesia sangat bergantung pada pemahaman perilaku konsumen untuk meningkatkan kualitas rekomendasi produk dan strategi pemasaran. 

Dalam proyek ini, kamu akan membangun pipeline ETL yang menyerap data ulasan mentah ke penyimpanan cloud seperti AWS S3, lalu memprosesnya menggunakan Apache Spark untuk analisis sentimen dan ekstraksi kata kunci.

Data yang sudah bersih kemudian disimpan di Redshift atau BigQuery untuk divisualisasikan menjadi dashboard yang menampilkan tren kepuasan pelanggan serta pola pembelian musiman. 

  1. Tech Stack: AWS S3, Apache Spark, Redshift/BigQuery, Tableau/Power BI
  2. Dataset: Indonesian E-commerce Reviews (tersedia di Kaggle)
  3. Skill Dibutuhkan: Scalable ETL Pipelines, Sentiment Analysis, Business Intelligence Dashboard


3. Prediksi Pola Cuaca dengan Azure

Industri agrikultur dan logistik sangat bergantung pada akurasi data cuaca untuk meminimalkan risiko operasional serta perencanaan panen. Kamu akan membangun infrastruktur big data untuk memproses dataset skala besar seperti suhu dan curah hujan dari NOAA ke dalam Azure Blob Storage. 

Selanjutnya, kamu menggunakan Databricks untuk membersihkan data tersebut sebelum melatih model prediktif di Azure ML Studio dan memvisualisasikan potensi kekeringan lewat Power BI.

  1. Tech Stack: Azure Blob Storage, Databricks, Azure ML Studio, Power BI
  2. Dataset: NOAA Climate Data
  3. Skill Dibutuhkan: Weather Data Analysis, Cloud Preprocessing, Predictive Modeling


4. Analisis Efisiensi Mitra Driver Gojek

Perusahaan ride-hailing membutuhkan wawasan mendalam mengenai pola perjalanan mitra untuk mengoptimalkan algoritma alokasi pesanan di jam sibuk. Di proyek ini, kamu akan mengolah data mentah GPS dan riwayat transaksi untuk memetakan rute paling efisien serta area dengan permintaan tertinggi. 

Hasil pengolahan data ini kemudian disimpan secara terstruktur agar tim bisnis bisa melihat korelasi antara lokasi penjemputan dengan tingkat penyelesaian order.

  1. Tech Stack: Python (Pandas), PostGIS, PostgreSQL, Tableau
  2. Dataset: Gojek/Grab Trip Data (Simulasi atau Kaggle)
  3. Skill Dibutuhkan: Geospatial Data Handling, Route Optimization Analysis, SQL Querying


5. Pipeline Data Pasar Saham Real-Time

Sektor finansial menuntut kecepatan data tingkat tinggi karena selisih satu detik saja bisa mempengaruhi keputusan investasi bernilai besar. Ide proyek untuk portofolio data engineer ini menantangmu membangun sistem streaming menggunakan Kafka yang menangkap pergerakan harga saham secara langsung dari API publik. 

Kamu harus memastikan data mengalir tanpa hambatan (latensi rendah) dan tersimpan rapi agar siap dianalisis oleh para trader setiap saat.

  1. Tech Stack: Apache Kafka, Python, Spark Streaming, Cassandra
  2. Dataset: Yahoo Finance API atau Alpha Vantage
  3. Skill Dibutuhkan: Real-time Data Streaming, Low-latency Architecture, NoSQL Database

Baca Juga: 10 Contoh Data Engineer Portfolio dan Cara Membuatnya


6. Analisis Harga Properti Airbnb

Tuan rumah atau investor properti memerlukan data pembanding yang akurat untuk menentukan harga sewa paling kompetitif di suatu wilayah wisata. Kamu akan melakukan praktik web scraping untuk mengumpulkan data harga, fasilitas, dan lokasi dari daftar properti Airbnb secara otomatis. 

Data yang terkumpul kemudian dibersihkan dari format yang tidak konsisten dan dimuat ke dalam gudang data untuk analisis tren harga musiman.

  1. Tech Stack: Python (BeautifulSoup), Airflow, Google BigQuery, Google Data Studio
  2. Dataset: Inside Airbnb Data
  3. Skill Dibutuhkan: Web Scraping, Data Warehousing, Pricing Strategy Analysis


7. Statistik Performa Video YouTube

Para konten kreator membutuhkan data analitik terperinci untuk memahami jenis konten apa yang paling disukai oleh penonton setia mereka. Proyek ini memintamu menghubungkan sistem dengan YouTube Data API untuk menarik metrik penting seperti jumlah penonton, likes, dan komentar secara berkala. 

Tantangan utamanya terletak pada kemampuanmu menguraikan format data JSON yang kompleks menjadi tabel relasional yang mudah dibaca oleh dashboard monitoring.

  1. Tech Stack: Python, YouTube API, MySQL, Metabase
  2. Dataset: YouTube Trending Video Statistics
  3. Skill Dibutuhkan: API Integration, JSON Parsing, Relational Database Design


8. Deteksi Transaksi Penipuan Perbankan

Keamanan transaksi digital menjadi prioritas mutlak bagi institusi perbankan demi menjaga kepercayaan nasabah dari serangan siber. Kamu akan merancang pipeline data yang mampu memproses jutaan baris riwayat transaksi untuk mengidentifikasi pola aneh atau anomali yang mengindikasikan kecurangan. 

Sistem ini harus mampu memisahkan transaksi valid dan mencurigakan secara cepat untuk memberikan peringatan dini kepada tim keamanan.

  1. Tech Stack: Python (Scikit-Learn), SQL Server, Power BI
  2. Dataset: Credit Card Fraud Detection Dataset
  3. Skill Dibutuhkan: Anomaly Detection, Data Security Standards, Large Scale Data Processing


9. Monitoring Kemacetan Jakarta Smart City

Pengelolaan lalu lintas ibu kota memerlukan integrasi data dari berbagai sensor CCTV dan laporan warga untuk mengurai titik kemacetan.

Salah satu ide proyek untuk portofolio data engineer yang berdampak sosial tinggi adalah mengolah data geospasial untuk memvisualisasikan kepadatan kendaraan di ruas jalan utama. Kamu akan belajar teknik pemetaan digital dan manajemen data spasial yang sangat berguna bagi perencanaan tata kota modern.

  1. Tech Stack: Python (GeoPandas), PostgreSQL (PostGIS), QGIS/Mapbox
  2. Dataset: Waze Traffic Data atau Jakarta Smart City API
  3. Skill Dibutuhkan: Geospatial Engineering, Public Data Utilization, Traffic Pattern Analysis


10. Prediksi Churn Pelanggan Telekomunikasi

Perusahaan telekomunikasi selalu berusaha mencegah pelanggan pindah ke kompetitor dengan memprediksi tingkat kepuasan mereka berdasarkan data penggunaan. 

Tugasmu adalah menggabungkan data durasi panggilan, penggunaan internet, dan keluhan pelanggan ke dalam satu tabel analisis terpusat atau Analytical Base Table (ABT). 

Data yang sudah siap ini kemudian digunakan untuk melatih model yang bisa memprediksi siapa saja pelanggan yang berpotensi berhenti berlangganan bulan depan.

  1. Tech Stack: SQL, Python, Snowflake, Tableau
  2. Dataset: Telco Customer Churn Dataset
  3. Skill Dibutuhkan: Data Integration, Customer Behavior Analysis, Feature Engineering

Baca Juga: Jobdesk Data Engineer Intern: Tugas dan Tips Suksesnya


Sudah Siap Membuat Proyek Data Engineering? 

Mengerjakan berbagai ide proyek untuk portofolio data engineer yang sudah MinDi bahas di atas menjadi bukti nyata kepada recruiter kamu siap menangani kompleksitas infrastruktur data di dunia kerja. Agar proses belajarmu makin terarah dengan pendampingan mentor ahli, yuk segera gabung di Bootcamp Data Engineering dibimbing.id

Program ini menawarkan gratis mengulang kelas, kesempatan emas mendapatkan pengalaman magang selama 6 bulan, serta praktik langsung mengerjakan proyek nyata standar industri. Warga Bimbingan tidak perlu khawatir soal masa depan karier, karena faktanya 96% alumni telah berhasil bekerja berkat jaringan koneksi luas ke 840+ hiring partner.

Misal kamu masih ragu dan memiliki pertanyaan seperti, "Apakah kurikulum cocok untuk pemula?" atau "Boleh konsultasi ke mentor di luar jam kelas?" langsung saja manfaatkan konsultasi gratis hari ini untuk mendapatkan jawabannya. Jangan tunda lagi langkah suksesmu karena dibimbing.id pasti #BimbingSampeJadi data engineer handal!


Referensi

  1. 30+ Data Engineering Projects for Beginners in 2025 [Buka]
  2. Top 11 Data Engineering Projects for Hands-On Learning [Buka]

Share

Author Image

Farijihan Putri

Farijihan is a passionate Content Writer with 3 years of experience in crafting compelling content, optimizing for SEO, and developing creative strategies for various brands and industries.

Hi!👋
Kalau kamu butuh bantuan,
hubungi kami via WhatsApp ya!