PCA: Definisi, Manfaat, Waktu Penggunaan, dan Cara Kerjanya

Siti Khadijah Azzukhruf Firdausi

•

03 May 2024

•

244

Image Banner

Sobat MinDi lagi bingung gimana caranya mengelola dan menganalisis informasi dalam volume besar dengan mudah? Tidak perlu bingung lagi! PCA adalah salah satu metode yang bisa Sobat MinDi pakai sebagai solusi pengolahan dan analisis big data.


Dengan PCA, Sobat MinDi bisa menyederhanakan kompleksitas data tanpa kehilangan nilai pentingnya. Mau tahu lebih banyak lagi? Yuk, baca artikel ini sampai habis!



Apa Itu Principal Component Analysis?



Principal component analysis atau PCA adalah metode pengurangan dimensi. Metode ini sering kali dipakai untuk mengurangi jumlah dimensi dalam dataset besar.


Mengutip dari built-in, cara kerja PCA dimulai dari proses pengubahan set besar variable menjadi bagian yang lebih kecil. Meski diubah ke yang lebih kecil, sebagian informasi dari set data besar masih dipertahankan.


Lebih lanjut, proses pengubahan itu membuat jumlah informasi yang dipakai dari set data besar berkurang. Sebab, tujuan utamanya adalah membuat semuanya lebih sederhana. 


Dengan data lebih kecil dan sedikit, kamu bisa memeriksa dan melihat informasi dengan lebih mudah. 


Selain itu, PCA juga membantu komputer dalam menjalankan algoritma machine learning secara lebih cepat dan efisien. Ini menjadi mungkin karena komputer tidak perlu mengolah informasi yang kurang penting.


Secara singkat, PCA bertujuan untuk mengurangi jumlah variabel dalam dataset. Akan tetapi, PCA juga berusaha mempertahankan informasi relevan dari set data yang besar.


Secara keseluruhan, PCA berfungsi untuk membuat analisis menjadi lebih efektif dan efisien. Ini terutama berlaku dalam kasus data yang besar dan kompleks.



Manfaat PCA




Seperti yang dijelaskan di atas, PCA bisa mengurangi dimensi data tanpa mengeliminasi informasi penting dan relevan. 


Dilansir dari Bigabid , PCA menawarkan beragam macam manfaat. Salah satunya adalah menggeneralisasi model machine learning lebih baik. Supaya kamu lebih paham lagi, MinDi sudah rangkum berbagai macam manfaat PCA yang lain:


1. Mengurangi Dimensi Data


Manfaat PCA yang pertama adalah dimensi data. Kemampuannya untuk mengurangi dimensi data membantu dalam menggeneralisasi model machine learning lebih baik.


Ini juga sangat berguna untuk mengatasi curse of dimensionality. Masalah itu merupakan momen ketika model menjadi kurang efektif karena dimensi data yang terlalu besar.



2. Meningkatkan Performa Algoritma


Manfaat berikutnya adalah meningkatkan performa algoritma. Umumnya, kinerja algoritma sering kali bergantung pada dimensi data. Selain itu, model yang berjalan pada data berdimensi tinggi mungkin berjalan lambat atau bahkan gagal.


Dengan mengurangi dimensi, PCA bisa meningkatkan kecepatan dan efisiensi model dengan mengorbankan bagian kecil dari akurasi model.



3. Mengurangi Noise dalam Data


Manfaat selanjutnya adalah untuk mengurangi noise dalam data. Hal ini dilakukan dengan memisahkan komponen yang mengandung informasi dari noise di dalam variabel asli



4. Seleksi Fitur


Manfaat berikutnya adalah untuk seleksi fitur. Meskipun PCA bukan teknik seleksi fitur trasional, ini bisa dipakai untuk identifikasi dalam pemilihan fitur penting.


Hal ini dilakukan dengan menghilangkan fitur yang memberikan informasi redundan atau kurang.


Baca Juga: Big Data Analytics: Pengertian, Jenis, dan Cara Kerjanya




Kapan Menggunakan PCA?



PCA bisa dipakai di kondisi tertentu. Pertama, saat menghadapi data berdimensi tinggi. Dalam situasi tersebut, PCA bisa dipakai untuk mengurangi jumlah fitur serta memudahkan analisis serta visualisasi data.


Berikutnya, PCA bisa dipakai ketika variabel-variable dalam dataset saling berkolerasi tinggi. Penggunaan PCA di kasus ini memungkinkan pengurangan variabel ke set yang lebih independen. Pada akhirnya, multikolinearitas bisa dihindari.


Terakhir, PCA bisa digunakan dalam analisis data eskploratif. Dalam situasi tersebut, PCA dipakai untuk menemukan pola dan hubungan tersembunyi. Hal ini sangat membantu saat pemahaman awal dan persiapan data sebelum analisis lebih mendalam.



Bagaimana Cara Kerja PCA?



Seperti penjelasan di atas, PCA adalah teknik statistik yang merangkum konten informasi dari dataset besar ke yang lebih kecil. 


Dilansir dari IBM, set variabel kecil ini cenderung tidak berkorelasi. Ini dikenal sebagai komponen utama atau principal component. Komponen utama adalah kombinasi linear dari variabel asli. 


Selain itu, kombinasi tersebut cenderung mempunyai varians maksimum dibandingkan dengan yang lainnya.


Selain itu, komponen-komponen tersebut bertujuan untuk menangkap sebanyak mungkin informasi dari dataset asli.


Supaya Sobat MinDi lebih paham soal cara kerja PCA, MinDi sudah rangkum beberapa langkah yang menggambarkan prosesnya. Berikut adalah cara kerja PCA:


1. Transformasi ke Sistem Koordinat Baru


Langkah pertama, PCA mengubah dataset asli menjadi sistem koordinat baru yang disusun berdasarkan komponen utama. Ini dilakukan melalui operasi aljabar linier dan matriks.



2. Penggunaan Matriks Kovarians


Langkah kedua PCA menggunakan matriks kovarians. Di tahap ini, vektor eigen dan nilai eigen dari matriks kovarians  sangat berperan penting. Keduanya mendukung komponen utama untuk mengaktualisasikan analisis transformasi linier ini. 


Vektor eigen berperan untuk menunjukkan arah varians dalam dataset. Sementara itu, nilai eigen adalah koefisien dari vektor eigen yang menandakan pentingnya arah tersebut. Nilai eigen yang tinggi berarti vektor eigen yang bersangkutan sangat penting.



3. Dua Komponen Utama PCA Dikalkulasi


Setelah matriks kovarians digunakan, dua komponen utama PCA dikalkulasi. Komponen ini mencakup PC1 dan PC2.


PC1 adalah arah di ruang di mana titik data memiliki varians paling tinggi. Lebih detailnya, ini adalah garis yang paling baik dan mewakili bentuk dari titik-titik yang diproyeksikan. 


Variabilitas yang lebih besar yang tertangkap dalam komponen pertama berarti informasi lebih banyak yang dipertahankan dari dataset asli.


Sementara itu, PC2 dihitung dengan cara yang sama seperti PC1. PC2 juga bertanggung jawab atas varians tertinggi berikutnya dalam dataset.


Varians tertinggi ini harus tidak berkorelasi dengan PC1. Artinya, PC2 harus ortogonal (tegak lurus) terhadap PC1. Hubungan ini juga bisa diekspresikan bahwa korelasi antara PC1 dan PC2 adalah nol.


Berikut ilustrasi korelasi antara PC1 dan PC2:


Sumber: IBM


Gambar di atas merupakan scatterplot yang biasanya digunakan untuk menunjukkan hubungan antara PC1 dan PC2. Ini adalah ilustrasi ketika PCA diterapkan pada dataset. Sumbu PC1 dan PC2 akan saling tegak lurus satu sama lain.


Baca Juga: Contoh Penerapan Big Data - Ada di Berbagai Sektor!




FAQ



Sumber: Freepik


Supaya Sobat MinDi paham tentang apa itu PCA secara lebih dalam lagi, berikut adalah salah satu pertanyaan umum terkait ini:


Apa Kriteria Dalam PCA?


Saat menggunakan PCA, ada beberapa kriteria yang bisa dipakai. Kriteria ini bertujuan untuk menentukan berapa banyak komponen utama yang harus dipertahankan dalam analisis.


Berikut penjelasan lengkapnya:


1. Kriteria Jumlah Komponen Utama (k < p)


Pada umumnya, dipilih 'k' buah komponen utama dari 'p' buah komponen utama yang ada. Komponen ini dipilih berdasarkan kemampuan mereka untuk mewakili keragaman data dengan nilai yang signifikan. Misalnya, antara 85% hingga 95% dari total varians data.



2. Kriteria Apriori


Dalam kriteria ini, analis data atau peneliti sudah menetapkan sebelumnya berapa banyak komponen utama yang akan diambil. Ini dilakukan berdasarkan kebutuhan analisis atau pengetahuan subjektif tentang data.



3. Kriteria Nilai Eigen


Kriteria ini melihat pada nilai eigen dari matriks kovarians atau korelasi. Komponen dengan nilai eigen lebih besar dari satu akan dianggap signifikan. 


Hal ini karena menunjukkan bahwa komponen tersebut menjelaskan varians lebih banyak daripada satu variabel rata-rata. Komponen dengan nilai eigen kurang dari satu biasanya tidak akan dipertahankan.



4. Kriteria Persentase Varian


Kriteria ini menggunakan persentase kumulatif dari varian yang dijelaskan oleh setiap komponen. Komponen yang menjelaskan persentase varian yang lebih tinggi akan dipertahankan. 


Selain itu, kriteria ini membantu dalam memaksimalkan informasi yang dijelaskan dengan menggunakan jumlah komponen lebih sedikit.



Demikian pembahasan lengkap terkait PCA. Apabila Sobat MinDi tertarik untuk belajar data lebih dalam lagi, MinDi merekomendasikan kamu untuk ikut Bootcamp Data Science Dibimbing.id.  


Lewat program ini, kamu bisa belajar semua hal berkaitan dengan data science. Kamu bisa belaajr teori dasar, tools penunjang, sampai praktik dengan real-case project.


Apabila baru beralih karir dan mau mulai belajar dari nol, kamu tidak perlu khawatir. Di Dibimbing, pembelajarannya dirancang dengan kurikulum beginner-friendly. Jadi, kamu sudah pasti bisa paham materinya tanpa kebingungan.


Bukan cuma itu, peluangmu untuk dapatkan karir di industri ini juga bisa lebih besar dengan ikut program ini. Fakta ini udah dibuktikan oleh 94% lulusan Dibimbing yang berhasil dapat pekerjaan sesuai program selesai.


Jadi, tak usah tunggu lama! Buruan daftar dan mulai karirmu sebagai data scientist bareng Dibimbing.id!


Referensi

  1. What is Principal Component Analysis (PCA) [Buka]

  2. PCA: What, How, and Why [Buka]

  3. A-Step-by-Step Explanation of Principal Component Analysis (PCA) [Buka]

  4. Principal Component Analysis (PCA) [Buka]

  5. Principal Component Analysis [Buka]


Share

Author Image

Siti Khadijah Azzukhruf Firdausi

Khadijah adalah SEO Content Writer di Dibimbing dengan pengalaman menulis konten selama kurang lebih setahun. Sebagai lulusan Bahasa dan Sastra Inggris yang berminat tinggi di digital marketing, Khadijah aktif berbagi pandangan tentang industri ini. Berbagai topik yang dieksplorasinya mencakup digital marketing, project management, data science, web development, dan career preparation.

Hi!👋

Kalau kamu butuh bantuan,

hubungi kami via WhatsApp ya!