dibimbing.id - 10V - Sepuluh Karakteristik Paling Penting dari Big Data

10V - Sepuluh Karakteristik Paling Penting dari Big Data

Syaukha Ahmad Risyad

ā€¢

04 August 2023

ā€¢

3971

Image Banner

Big data adalah komponen penting bagi perusahaan saat ini, tapi apa sih yang membuat big data berbeda dengan data biasanya? Di artikel ini, MinDi mau jelasin, nih, karakteristik penting dari big data! Baca sampai habis, ya!

Dalam dunia data science, big data adalah kumpulan data yang sangat besar dan kompleks yang membutuhkan metode tertentu untuk mengolahnya. Di era digital saat ini, data menjadi aset penting bagi perusahaan, sedangkan jumlah data yang dihasilkan terus berkembang dengan cepat. Di sinilah peran data scientist menjadi penting buat mengelola big data.

Di artikel ini, MinDi mau jelasin nih, konsep ā€˜10Vā€™ yang menggambarkan sepuluh karateristik penting dari big data. Apa saja sepuluh karakteristik tersebut? Dan bagaimana karakteristik tersebut menggambarkan peran penting big data? Yuk, kita bahas!

1. Volume

Karakteristik pertama dari big data tentunya adalah volumenya yang sangat besar. Kita bisa berbicara hingga zettabyte! Bahkan alasan inilah yang membuatnya disebut sebagai big data. Masifnya volume dari big data ini ditandai dengan dibutuhkannya infrastruktur eksklusif untuk menyimpan, mengelola, dan menganalisis data yang ada.

Volume big data terus berkembang seiring waktu. Berbagai sumber bahkan menyebutkan kalau jumlah data terus meningkat secara eksponensial, dengan 90% data dari dunia dihasilkan dalam beberapa tahun terakhir saja. Berikut adalah beberapa contoh yang menggambarkan besarnya volume big data.

  1. Media sosial: Jutaan orang di seluruh dunia menggunakan platform media sosial seperti Facebook, Twitter, Instagram, dan LinkedIn untuk berbagi informasi, gambar, video, dan lainnya. Setiap dari miliaran posting, komentar, dan interaksi yang terjadi di platform tersebut menjadi data baru.

  2. Sensor dan IoT:  Internet of Things (IoT) telah menghubungkan banyak perangkat, sensor, dan mesin yang menghasilkan data dalam jumlah besar. Contohnya seperti sensor pada kendaraan, perangkat kesehatan yang terhubung, sensor cuaca, dan banyak lagi. Data yang dihasilkan oleh jaringan IoT dapat mencapai volume yang sangat besar dan terus meningkat seiring adopsi dari teknologi ini.

  3. Transaksi keuangan: Setiap kali transaksi keuangan dilakukan, ada data yang tercatat untuk setiap informasi transaksi, seperti jumlah, tanggal, lokasi, dan pihak yang terlibat dalam transaksi.

2. Velocity

Velocity (kecepatan) menjadi faktor penting dalam big data. Kecepatan yang dimaksud di sini adalah seberapa cepat perusahaan dapat memperoleh, menyimpan, dan mengelola data baru. Dengan banyak data yang dihasilkan secara real-time, perusahaan dapat mengakses, memproses, dan menganalisis data tersebut dengan cepat agar informasi yang bernilai dapat diperoleh secara real-time pula. 

Dalam rangka mengelola kecepatan dalam big data, perusahaan perlu mempertimbangkan infrastruktur teknologi yang tepat, seperti sistem pengolahan data real-time, penggunaan algoritme paralel, dan alat-alat pemrosesan yang dapat beroperasi dengan kecepatan tinggi.

3. Variety

Data-data yang tercakup ke dalam big data tidak hanya berasal dari satu sumber atau jenis data tunggal, tetapi juga dari berbagai macam jenis data yang heterogen. Sehingga, dalam big data juga termasuk jenis-jenis data seperti teks, gambar, audio, video, dan banyak lagi.

Dalam konteks big data, jenis-jenis data dapat dikategorikan berdasarkan strukturnya, yaitu structured, semi-structured, dan unstructured. Penjelasannya adalah sebagai berikut.

Data Terstruktur, Semi-terstruktur, dan Tak Terstruktur


Structured Data (Data Terstruktur)

Seperti namanya, data terstruktur adalah jenis data yang memiliki format yang baik dan struktur yang jelas. Data ini tersimpan dalam format tabel dengan baris dan kolom, sehingga dapat dibaca dan di ekstrak melalui SQL.

Contoh dari data terstruktur adalah data transaksi keuangan dengan kolom seperti tanggal, jumlah, nama pelanggan, dan sebagainya.

Semi-structured Data (Data Semi-terstruktur)

Bisa dibilang data semi-terstruktur adalah campuran antara jenis data terstruktur dengan data tak terstruktur. Maksudnya, data jenis ini memiliki label atau format tertentu, tapi strukturnya tidak kaku seperti seperti data terstruktur, sehingga sulit untuk diekstrak melalui SQL. Format data semi-terstruktur yang umum termasuk XML (eXtensible Markup Language) dan JSON (JavaScript Object Notation).

Unstructured Data (Data Tak Terstruktur)

Data tak terstruktur mencakup semua data yang tidak memiliki format tertentu, seperti gambar, audio, video, dan sejenisnya. Ini adalah jenis data yang lebih sulit untuk diolah dan dianalisis karena dibutuhkan formatting yang cukup kompleks.

4. Veracity

V selanjutnya dalam big data adalah Veracity, yang merujuk pada keandalan, akurasi, dan keabsahan data yang terlibat dalam analisis big data. Data yang tidak akurat, tidak lengkap, atau tidak terpercaya tentunya dapat merusak akurasi dari analisis datanya.

Untuk memastikan kualitas data, perusahaan harus mengontrol dan mengawasi proses bagaimana data tersebut dihasilkan dan dikelola.

5. Value

Bisa jadi ini adalah ā€œVā€ paling penting dari big data buat bisnis. Dalam konteks big data, data yang disimpan harus punya value yang ditunjukkan oleh manfaat dan keuntungan yang dapat diperoleh dari pengolahan, analisis, dan pemanfaatan data tersebut. 

Buat memanfaatkan big data, perusahaan akan memilih data mana yang paling berguna sesuai kebutuhan. Dari data tersebut, perusahaan bisa melakukan analisis data untuk mengidentifikasi tren, menemukan insight, dan membuat keputusan berbasis data.

6. Validity

Karakteristik selanjutnya adalah validitas. Seperti veracity, validity meninjau akurasi dan ketepatan data, namun validity secara spesifik mendeskripsikan bahwa data yang digunakan haruslah sesuai dengan kebutuhannya. Perusahaan haruslah dapat memilah data-data yang tepat agar dapat membuat kebijakan atau keputusan yang akurat.

7. Variability

Variabilitas suatu data merujuk kepada inkonsistensi dari data yang dihasilkan. Inkonsistensi dari data dapat muncul karena dalam big data, data diperoleh dari berbagai sumber dan dapat mengandung data-data dengan format yang berbeda. Inkonsistensi lain yang dapat muncul dalam analisis big data adalah inkonsistensi pada kecepatan dari pemuatan (loading) data ke dalam database. Inkonsistensi pada data dapat mempengaruhi dari tingkat reproduksibilitas dari data.

Untuk mengatasi variabilitas data, perusahaan harus menyusun suatu program yang dapat mendeteksi outlier pada data.

8. Venue

Venue merujuk kepada karakteristik sumber data yang heterogen. Karakteristik ini menggambarkan bahwa big data berasal dari berbagai sumber, serta disimpan dalam lokasi yang beragam, seperti pada cloud atau pusat data.

Menganalisis data dari berbagai sumber dapat memberikan gambaran yang lebih komprehensif tentang fenomena atau masalah tertentu.

9. Vocabulary

Big data menggunakan beragam terminologi dan bahasa. Seperti yang sudah MinDi jelaskan di bagian Variety, bahwa big data dapat mengandung berbagai jenis data, termasuk data tak terstruktur dan semi-terstruktur, yang sulit diekstrak dan dianalisis menggunakan SQL. Untuk menganalisis data jenis tersebut, diperlukan semacam teknik yang dikenal sebagai natural language processing (NLP) yang dapat memahami konteks dari kata atau frasa yang terkandung dalam data.

Vocabulary menunjukkan bahwa diperlukan bahasa, skema, semantik, dan model data yang dapat mendeskripsikan struktur dan konten data, agar data dapat dianalisis.

10. Vagueness

V yang terakhir adalah Vagueness. Karakteristik ini menggambarkan tantangan dalam menginterpretasi dan memahami makna yang terkandung dalam big data. Berdasarkan deskripsi tentang karakteristik-karakteristik big data sebelumnya, kamu mungkin sudah menyadari bahwa dibutuhkannya pemahaman dan keterampilan yang baik untuk menganalisis big data. Perlu adanya perhatian dan pengawasan lebih terkait kualitas data, konteks, dan keterbatasan yang dimiliki dari big data.

Big data adalah komponen yang sangat penting dalam setiap proses analisis data. Makanya, kalau Sobat MinDi ingin mendalami dunia data science, kamu perlu paham betul tentang serba-serbi big data.

Nah, biar bisa menguasai big data, kamu bisa banget ikutan Bootcamp Data Science yang diadakan oleh Dibimbing.id!

Kamu bakal belajar tentang konsep-konsep dan teknologi terkait big data, serta bagaimana cara mengolahnya! Kamu bakal dilatih oleh banyak ahli untuk menggunakan tools data science, seperti PostgreSQL, Python, dan Tableau dari awal hingga mahir!

Ayo mulai kuasai data science bareng Dibimbing.id!

Share

Author Image

Syaukha Ahmad Risyad

Menulis artikel demi bisa membeli model kit.

Hi!šŸ‘‹

Kalau kamu butuh bantuan,

hubungi kami via WhatsApp ya!