Data Set: Pengertian, Jenis, dan Contohnya
Syaukha Ahmad Risyad
•
06 August 2023
•
23404
Buat kamu yang udah sering bermain dengan data, kamu pasti nggak asing dengan data set. Tapi apa, sih, data set, dan apa contohnya?
Data adalah komponen penting dalam bisnis dan perusahaan di era digital ini. Di dunia data science, bagaimana kita berinteraksi dengan data tidak terlepas dari penggunaan data set. Di artikel ini, MinDi bakal jelasin, apa itu data set, dan apa saja contoh-contoh data set yang bisa kita gunakan. Baca sampai habis, ya!
Apa itu Data Set?
Data set merupakan kumpulan data yang diatur dalam format yang terstruktur, seperti tabel atau file, dan berisi informasi dari berbagai sumber. Data set dapat berupa data numerik, teks, gambar, atau gabungan dari semuanya. Keberagaman jenis data set ini memungkinkan aplikasi dalam berbagai industri dan disiplin ilmu.
Data set dikumpulkan oleh profesional di bidang data, seperti data analyst. Untuk bisa digunakan, data set perlu melewati beberapa tahapan pengolahan data, seperti data cleaning dan kategorisasi. Sehingga, data set yang dapat digunakan oleh profesional biasanya terkumpul berdasarkan kategorinya masing-masing, dan di dalamnya terdapat variabel-variabel yang saling berhubungan.
Perbedaan Data Set dan Database
Kamu juga mungkin sudah sering mendengar istilah database. Lalu apa beda keduanya?
Data set dan database adalah dua konsep yang sering digunakan dalam pengelolaan dan pengolahan data, tetapi keduanya memiliki perbedaan mendasar dalam pengertian dan penggunaannya. Data set adalah kumpulan data yang terstruktur, sementara database adalah kumpulan data yang lebih kompleks dan diatur dalam struktur yang lebih rinci dengan menggunakan database management system (DBMS). Data set seringkali berfungsi sebagai komponen dalam database yang lebih besar. Penggunaan data set dan database sangat tergantung pada tujuan dan kebutuhan pengolahan data yang berbeda.
Jenis-jenis Data Set
Data dikumpulkan dari berbagai jenis dan berbagai bentuk, sehingga data set pun dapat dikategorikan dalam beberapa jenis. Seorang data analyst perlulah memahami perbedaan karakter dari jenis-jenis data set ini karena memiliki fungsi dan tujuan yang berbeda.
Numerical Data Set
Numerical data set adalah jenis data set yang terdiri dari data numerik saja. Data numerik ini bersifat kuantitatif dan dapat dihitung, diukur, dan diolah menggunakan perhitungan matematis, analisis statistik, atau model prediktif. Contoh data numerik meliputi usia, tinggi badan, suhu, pendapatan, dan banyak lagi.
Bivariate Data Set
Bivariate data set adalah jenis data set yang berisi dua variabel yang terkait satu sama lain. Data set jenis ini digunakan untuk menganalisis hubungan atau korelasi antara dua variabel. Contoh bivariate data set adalah data berat dan tinggi badan dari sekelompok individu, yang setiap entri berisi berat dan tinggi badan masing-masing individu.
Multivariate Data Set
Multivariate data set adalah jenis data set yang berisi lebih dari dua variabel. Data ini mencakup beberapa atribut atau dimensi, dan setiap entri data memiliki beberapa nilai yang berkaitan dengan atribut atau dimensi tersebut. Analisis untuk jenis data set ini membantu mengidentifikasi ketergantungan antara banyak variabel. Contoh multivariate data set adalah data demografi yang mencakup usia, pendapatan, tingkat pendidikan, pekerjaan, dan lain-lain dari sejumlah individu.
Categorical Data Set
Categorical data set adalah jenis data set yang berisi data dalam bentuk kategori atau kelompok. Data ini bersifat kualitatif dan tidak dapat diukur dengan angka. Contoh data kategorikal meliputi jenis kelamin (laki-laki/perempuan), status pernikahan (menikah/belum menikah/cerai), warna mata (cokelat/biru/hijau), dan sebagainya.
Correlation Data Set
Correlation data set adalah jenis data set yang berisi nilai-nilai korelasi antara dua atau lebih variabel dalam bentuk matriks atau tabel. Nilai korelasi menggambarkan sejauh mana hubungan linier antara variabel-variabel tersebut. Nilai korelasi berkisar dari -1 hingga +1, dengan nilai -1 menunjukkan korelasi negatif sempurna, 0 menunjukkan tidak adanya korelasi, dan +1 menunjukkan korelasi positif sempurna. Korelasi negatif menandakan bahwa kedua variabel memiliki hubungan yang berbanding terbalik, sedangkan korelasi positif menandakan kedua variabel bergerak ke arah yang sama.
Contoh Data Set
Biar kamu makin paham tentang data set, yuk kita lihat contoh-contoh berikut.
Populasi Ternak
Data set di atas menggambarkan populasi ternak dari berbagai kecamatan di suatu wilayah. Dalam data set tersebut, terdapat nama-nama kecamatan, dan populasi dari hewan-hewan ternak seperti sapi, kerbau, dan kuda.
Dari data set tersebut, kamu bisa mengambil beberapa informasi, seperti populasi ternak total pada suatu kecamatan, atau mencari kecamatan mana yang memiliki populasi hewan tertentu paling banyak.
Netflix Userbase
Data set selanjutnya adalah contoh userbase dari Netflix, yang dapat diunduh pada situs Kaggle. Pada userbase tersebut, ada beberapa dimensi yang tercakup, seperti jenis langganan, tanggal berlayanan pertama dan terbaru, negara asal, umur, dan perangkat penggunaan.
Dari kategori yang banyak ini, kamu bisa mengambil banyak informasi pula. Misalnya, kamu dapat mencari informasi tentang retention rate. Dari kolom country, kamu juga bisa membuat peta data. Masih banyak lagi informasi yang bisa kamu gali.
Selain itu, kamu juga bisa lihat bahwa pada data set di atas, format penanggalan berbeda-beda untuk setiap barisnya. Hal itu menandakan bahwa kamu perlu memberlakukan formatting terlebih dahulu agar data lebih mudah diolah.
Kegiatan Radiologi dan Pelayanan Rumah Sakit
Contoh data set terakhir adalah data set tentang kegiatan radiologi di suatu rumah sakit dari bulan Januari hingga April. Di dalam data set, ada beberapa layanan, dan banyaknya akses terhadap layanan tersebut tiap bulannya.
Seperti data set populasi ternak di atas, data set ini juga memberikan informasi numerik untuk berbagai layanan dan bulan yang berbeda-beda. Kamu bisa menyimpulkan layanan mana yang paling banyak diakses, juga bulan apa yang paling banyak aktivitas.
Public Data Set yang Bisa Kamu Akses
Kalau kamu ingin mencoba mengolah data set secara mandiri, ada beberapa situs yang memberikan data set publik dan dapat kamu akses. Berikut adalah beberapa contohnya.
Kaggle. Kaggle merupakan situs yang berisi beragam data set untuk berbagai kondisi dan kasus.
Google Dataset Search. Yang satu ini sama seperti search engine Google pada umumnya, namun dikhususkan untuk pencarian data set. Kamu menulis informasi yang ingin kamu cari, dan Google Dataset Search akan memberikan link ke situs yang menyediakan data set buat kamu.
Datahub.io. Situs ini juga menyediakan banyak data, khususnya yang berhubungan dengan bisnis. Namun kamu perlu membuat akun, dan beberapa data set juga memerlukan akses khusus.
Data.go.id. Kalau kamu ingin mencari data-data dalam negeri yang dikumpulkan oleh pemerinthan, kamu bisa periksa situs ini.
Belajar Mengolah Data
Pengolahan data membutuhkan keterampilan dan jam terbang yang terus diasah. Begitu pula dengan kemampuan kamu membaca dan mengolah data set. Seseorang yang sudah mahir dapat memprediksi informasi apa saja yang dapat diambil, hanya dari membaca data set. Kamu pun bisa begitu, dengan terus mengasah kemampuan kamu.
Nah, kalau Sobat MinDi mau menguasai pengolahan data, kamu bisa banget buat ikutan Bootcamp Data Science dari Dibimbing.id!
Kamu bakal belajar banyak tentang data science beserta tools-nya, seperti SQL, Python, hingga Tableau! Kamu juga bakal belajar bareng ahli-ahli data science yang punya segudang pengalaman.
Yuk, kuasai data science bareng Dibimbing.id!Tags