Panduan Singkat Regresi Linear Berganda (Dengan Contoh)

Malna Widahta

06 July 2023

5201

Image Banner

Regresi linear berganda — Model regresi adalah model yang menggambarkan hubungan antara variabel dengan suatu trend atau pola. Pola ini dapat berbentuk garis lurus (linear), atau polinom. Regresi memungkinkan sobat MinDi untuk memperkirakan bagaimana pergerakan nilai sebuah variabel (variabel terikat) jika dikaitkan dengan nilai variabel lainnya (variabel bebas).

Nah, regresi linear berganda ini dapat memperkirakan hubungan antara dua atau lebih variabel bebas dengan satu variabel terikat. Spesifiknya, kalau sobat Mindi ingin tahu:


  1. Seberapa kuat hubungan antara dua atau lebih variabel bebas dengan satu variabel terikat. Misalnya: hubungan antara tiga variabel bebas (1) tingkat curah hujan, (2) nilai suhu/temperatur, (3) dan jumlah pupuk yang ditambahkan, dapat mempengaruhi pertumbuhan tanaman.
  2. Nilai variabel terikat dari variabel bebas pada suatu nilai tertentu. Misalnya: untuk menghitung hasil panen — atau pertumbuhan tanaman — yang diharapkan, pada tingkat curah hujan, nilai suhu/temperatur, dan penambahan jumlah pupuk tertentu.


Sobat MinDi adalah peneliti kesehatan masyarakat, tertarik dengan faktor sosial yang memengaruhi penyakit jantung. Sobat MinDi mensurvei 500 kota dan mengumpulkan data tentang persentase orang di setiap kota yang merokok, persentase orang di setiap kota yang bersepeda ke kantor, dan persentase orang di setiap kota yang mengidap penyakit jantung.
Karena Anda memiliki dua variabel bebas (persentase perokok dan pesepeda) dan satu variabel terikat (persentase penyakit jantung), dan semua variabel Anda bersifat kuantitatif, kita dapat menggunakan regresi linier berganda untuk menganalisis hubungan antara keduanya.


1. Asumsi Regresi Linear Berganda


  • Homogenitas varians (homoskedastisitas): perbandingan antara selisih nilai hasil pemodelan dengan observasi data, tidak signifikan perubahannya untuk seluruh nilai variabel bebas.
  • Independensi data pengamatan: pengamatan dalam kumpulan data dikumpulkan menggunakan metode pengambilan sampel yang valid secara statistik, dan tidak ada hubungan tersembunyi antar variabel.

    Dalam regresi linier berganda, ada kemungkinan beberapa variabel independen benar-benar berkorelasi satu sama lain. Jadi penting untuk memeriksanya sebelum mengembangkan model regresi. Jika dua variabel independen berkorelasi terlalu tinggi (r-squared > ~0,6), maka hanya salah satu variabel yang boleh digunakan dalam model regresi.
  • Normalitas: data mengikuti distribusi normal.
  • Linearitas: garis yang paling cocok melalui titik data adalah garis lurus, bukan kurva atau semacam faktor pengelompokan.


2. Bagaimana Melakukan Regresi Linear Berganda


Rumus

Rumus untuk regresi linear berganda adalah:






Untuk menemukan nilai berdasarkan pola garis lurus untuk setiap variabel bebas, regresi linear berganda menghitung tiga hal:

  1. Koefisien regresi yang menghasilkan kesalahan model keseluruhan terkecil.
  2. t-statistic untuk keseluruhan model.
  3. Nilai p-statistic (seberapa besar kemungkinan t-statistic akan terjadi secara kebetulan jika hipotesis nol tentang tidak ada hubungan antara variabel terikat dan bebas benar).

Kemudian t-statistik dan nilai p terhitung untuk setiap koefisien regresi dalam model.


Melakukan regresi linier berganda di R

Meskipun bisa saja melakukan metode ini tanpa bantuan, tapi umumnya Sobat MinDi lebih mudah dengan bantuan perangkat lunak statistik. Contohnya, sobat MinDi bisa menggunakan R karena gratis dan tersedia secara luas.

Ambil contoh, muat dataset heart.data ke dalam environment R dan jalankan kode berikut:

heart.disease.lm<-lm(heart.disease ~ biking + smoking, data = heart.data)

Kode ini mengambil dataset heart.data dan menghitung pengaruh variabel bebas “bersepeda” dan “merokok” terhadap variabel terikat “penyakit.jantung” menggunakan persamaan untuk model linear: lm().




3. Interpretasi Hasil


Untuk melihat hasil model, kita dapat menggunakan fungsi summary():

summary(heart.disease.lm)

Fungsi ini bisa mengambil parameter terpenting dari model linear dan menempatkannya ke dalam tabel seperti ini:




Jadi yang pertama Sobat MinDi perlu lihat adalah nilai residualnya. Apabila mediannya mendekati 0 dan nilai minimum dan maksimumnya nyaris sama, maka model kita memenuhi asumsi homoskedastisitas.

Nah pada contoh model ini, kita bisa bilang model memenuhi asumsi homoskedaktisitas. Karena, nilai median yang mendekati 0 (0.00362) dan nilai minimum dan maksimum yang sama di angka 2 (-2.1789 dan 1.9331) pembulatan.

Berikutnya adalah koefisien regresi model (‘Koefisien’). Baris 1 dari tabel koefisien diberi label (Intercept) – ini adalah perpotongan y dari persamaan regresi. Ini membantu untuk mengetahui estimasi intersep untuk memasukkannya ke dalam persamaan regresi dan memprediksi nilai variabel terikat:

heart disease = 14.98 + (-0.20*biking) + (0.18*smoking) ± e

Hal terpenting yang perlu Sobat MinDi pahami dalam tabel output ini adalah dua tabel berikutnya – estimasi untuk variabel bebas.

  • Kolom “Estimasi” adalah estimasi efek, atau koefisien regresi atau nilai r2. Estimasi dalam tabel memberi tahu kita bahwa untuk setiap peningkatan satu persen dalam bersepeda ke tempat kerja, ada kaitan dengan penurunan 0,2 persen pada penyakit jantung, dan untuk setiap satu persen peningkatan dalam merokok ada kaitan dengan 0,17 persen dalam peningkatan penyakit jantung.
  • Kolom “Std.error” menampilkan kesalahan standar estimasi. Angka ini menunjukkan berapa banyak variasi yang ada di sekitar estimasi koefisien regresi.
  • Kolom “t-value” menampilkan statistik uji. Kecuali ada penentuan lain, statistik uji yang ada dalam regresi linier adalah nilai t dari uji t dua sisi. Semakin besar nilainya, semakin kecil kemungkinan hasilnya terjadi secara kebetulan.
  • Kolom “Pr( > | t | )” menunjukkan nilai p. Ini menunjukkan seberapa besar kemungkinan nilai t yang terhitung akan terjadi secara kebetulan jika hipotesis nol tentang tidak adanya pengaruh parameter itu benar.

Karena nilai-nilai ini sangat rendah (p <0,001 dalam kedua kasus), kita dapat menolak hipotesis nol dan menyimpulkan bahwa bersepeda ke tempat kerja dan merokok keduanya kemungkinan memengaruhi tingkat penyakit jantung.



4. Menyajikan Hasil

Saat melaporkan hasil, sertakan estimasi efek (yaitu koefisien regresi), kesalahan standar estimasi, dan nilai p. Sobat MinDi juga harus menginterpretasikan angka Anda untuk menjelaskan kepada pembaca apa arti koefisien regresi.

Dalam survei kami terhadap 500 kota, kami menemukan hubungan yang signifikan antara frekuensi bersepeda ke tempat kerja dan frekuensi penyakit jantung serta frekuensi merokok dan frekuensi penyakit jantung (masing-masing p <0,001). Secara khusus, kami menemukan penurunan 0,2% (± 0,0014) pada frekuensi penyakit jantung untuk setiap peningkatan 1% dalam bersepeda, dan peningkatan 0,178% (± 0,0035) pada frekuensi penyakit jantung untuk setiap peningkatan 1% dalam merokok.

Penjelasan hasil model

Agar lebih mudah untuk audience memahami, Sobat MinDi juga dapat menyertakan grafik untuk hasilnya. Regresi linier berganda agak sedikit lebih rumit daripada regresi linier sederhana. Karena terdapat lebih banyak parameter daripada yang dapat tertampung pada plot dua dimensi.

Namun, ada cara untuk menampilkan hasil yang menyertakan efek beberapa variabel bebas pada variabel terikat. Meskipun, sebenarnya hanya satu variabel bebas yang dapat diplot pada sumbu x.





Grafik ini menunjukkan hitungan nilai prediksi dari variabel terikat (penyakit jantung) di seluruh rentang nilai hasil observasi, untuk persentase orang yang bersepeda ke tempat kerja.

Untuk memasukkan efek merokok pada variabel bebas, kita bisa menghitung nilai prediksi ini sambil mempertahankan merokok konstan pada tingkat merokok minimum, rata-rata, dan maksimum yang teramati.

Baca Juga: Presentasi Efektif Model Machine Learning Untuk Tim Bisnis

Dari blog partner: https://www.malnawidahta.com


5. Bagaimana Mengevaluasi Performa Model


Sama seperti model linear yang sederhana, metrik paling sering untuk mengevaluasi performa mean-square error (MSE) untuk menghitung kesalahan model. Cara menghitung MSE dengan:

  1. mengukur jarak nilai y yang sudah teramati dari nilai y prediksi pada setiap nilai x;
  2. mengkuadratkan setiap jarak ini;
  3. menghitung rata-rata dari setiap kuadrat jarak.

Regresi linier mencocokkan garis dengan data dengan mencari koefisien regresi yang menghasilkan MSE terkecil.



6. Contoh Cara Menggunakan Regresi Linier Berganda


Sebagai contoh, seorang analis mungkin ingin mengetahui bagaimana pergerakan pasar mempengaruhi harga ExxonMobil (XOM). Dalam hal ini, persamaan liniernya akan memiliki nilai indeks S&P 500 sebagai variabel independen, atau prediktor, dan harga XOM sebagai variabel dependen.


Pada kenyataannya, banyak faktor yang memprediksi hasil suatu peristiwa. Pergerakan harga ExxonMobil, misalnya, bergantung pada lebih dari sekedar kinerja pasar secara keseluruhan. Prediktor lain seperti harga minyak, suku bunga, dan pergerakan harga minyak berjangka dapat mempengaruhi harga Exxonmobil (XOM) dan harga saham perusahaan minyak lainnya. Untuk memahami hubungan yang terdapat lebih dari dua variabel, digunakan regresi linier berganda.


Regresi linier berganda (MLR) digunakan untuk menentukan hubungan matematis antara beberapa variabel acak.


Dengan istilah lain, MLR menguji bagaimana beberapa variabel independen berhubungan dengan satu variabel dependen. Setelah masing-masing faktor independen ditentukan untuk memprediksi variabel dependen, informasi tentang beberapa variabel dapat digunakan untuk membuat prediksi yang akurat mengenai tingkat pengaruhnya terhadap variabel hasil. Model tersebut menciptakan hubungan dalam bentuk garis lurus (linier) yang paling mendekati semua titik data individual.

Mengacu pada persamaan MLR di atas, dalam contoh kita:

  • y i = variabel terikat—harga XOM

  • x i1 = suku bunga

  • x i2 = harga minyak

  • x i3 = nilai indeks S&P 500

  • x i4 = harga minyak berjangka

  • B 0 = perpotongan y pada waktu nol

  • B 1 = koefesien regresi yang mengukur perubahan satuan variabel terikat ketika x i1 berubah - perubahan harga XOM ketika suku bunga berubah

  • B 2 = nilai koefisien yang mengukur satuan perubahan variabel terikat ketika x i2 berubah—perubahan harga XOM ketika harga minyak berubah


Perkiraan kuadrat terkecil—B 0 , B 1 , B 2 …B p —biasanya dihitung dengan perangkat lunak statistik. Banyaknya variabel yang dapat dimasukkan ke dalam model regresi di mana setiap variabel bebas dibedakan dengan angka—1,2, 3, 4...p. Model regresi berganda memungkinkan seorang analis untuk memprediksi hasil berdasarkan informasi yang diberikan pada beberapa variabel penjelas.

Namun, model tersebut tidak selalu benar-benar akurat karena setiap titik data mungkin sedikit berbeda dari hasil yang diprediksi oleh model. Nilai sisa, E, yang merupakan selisih antara hasil aktual dan hasil prediksi, dimasukkan ke dalam model untuk memperhitungkan sedikit variasi tersebut.


Dengan asumsi kita menjalankan model regresi harga XOM melalui perangkat lunak komputasi statistik, yang mengembalikan keluaran ini:


Sumber : Investopedia



Seorang analis akan menafsirkan keluaran ini sebagai jika variabel lain dianggap konstan, maka harga XOM akan meningkat sebesar 7,8% jika harga minyak di pasar meningkat sebesar 1%. Model tersebut juga menunjukkan bahwa harga XOM akan turun sebesar 1,5% menyusul kenaikan suku bunga sebesar 1%. R 2 menunjukkan bahwa 86,5% variasi harga saham Exxon Mobil dapat dijelaskan oleh perubahan tingkat suku bunga, harga minyak, kontrak berjangka minyak, dan indeks S&P 50



Referensi : 


Multiple Linear Regression (MLR) Definition, Formula, and Example - Buka

Multiple Linear Regression | A Quick Guide (Examples) - Buka



Share

Author Image

Malna Widahta

Head of Risk Analytics & Modelling Unit at Hijra (ALAMI P2P)

Hi!👋

Kalau kamu butuh bantuan,

hubungi kami via WhatsApp ya!