Page 1 of 10
40
Pengembangan Algoritma Rekomendasi Menggunakan Collaborative Filtering dan
Content-Based Filtering
1Muhammad Rafly Junaedi, 2Mohammad Givi Efgivia
12 Universitas Muhammadiyah Prof. Dr. Hamka
1raflym1406@gmail.com,
2mgivi@uhamka.ac.id
Abstrak
Dalam era digital saat ini, sistem rekomendasi memainkan peran penting dalam membantu
pengguna menemukan informasi atau produk yang relevan di tengah banyaknya pilihan yang tersedia.
Namun, sistem rekomendasi tradisional sering menghadapi tantangan seperti masalah cold
start dan sparsity. Penelitian ini bertujuan untuk mengembangkan algoritma rekomendasi yang lebih efektif
dengan menggabungkan dua pendekatan utama, yaitu Collaborative Filtering (CF) dan Content-Based
Filtering (CBF). CF memanfaatkan data interaksi pengguna sebelumnya untuk memberikan rekomendasi
berdasarkan preferensi pengguna yang serupa, sementara CBF menggunakan fitur atau karakteristik konten
untuk menyarankan item yang sesuai dengan minat pengguna.
Metodologi penelitian ini melibatkan pengujian dan penggabungan kedua pendekatan tersebut
menggunakan teknik weighted hybridization, di mana bobot tertentu diberikan pada hasil dari CF dan CBF
berdasarkan kinerja model. Data yang digunakan terdiri dari 10.000 pengguna dan 5.000 item, dengan total
150.000 interaksi. Hasil eksperimen menunjukkan bahwa pendekatan hibrida mampu meningkatkan akurasi
rekomendasi secara signifikan, dengan peningkatan precision sebesar 0,82, recall sebesar 0,76, dan F1-
score sebesar 0,79, serta mengurangi Mean Absolute Error (MAE) menjadi 0,22. Selain itu, pendekatan
hibrida juga berhasil mengatasi masalah cold start dan meningkatkan diversitas rekomendasi.
Temuan ini menunjukkan bahwa pendekatan hibrida dapat menjadi solusi yang efektif dalam
pengembangan sistem rekomendasi yang adaptif dan personal, serta dapat diterapkan dalam berbagai
domain seperti e-commerce, layanan streaming, dan media sosial.
Kata Kunci: Algoritma Rekomendasi, Collaborative Filtering, Content-Based Filtering, Sistem
Rekomendasi, Pendekatan Hibrida, Cold Start, Sparsity
Pendahuluan
Dalam beberapa dekade terakhir, perkembangan teknologi informasi telah menyebabkan pertumbuhan data
digital yang sangat pesat. Salah satu tantangan yang muncul dari perkembangan ini adalah bagaimana
menyediakan informasi yang relevan dan sesuai dengan kebutuhan pengguna. Untuk mengatasi masalah
ini, sistem rekomendasi telah menjadi solusi yang populer dalam berbagai aplikasi, mulai dari e-commerce,
layanan streaming, hingga media sosial (Adomavicius & Tuzhilin, 2005). Di antara berbagai metode yang
digunakan dalam sistem rekomendasi, dua pendekatan yang paling umum adalah Collaborative Filtering
dan Content-Based Filtering.
Collaborative Filtering
Collaborative Filtering (CF) adalah metode yang mengandalkan perilaku dan preferensi pengguna lain
untuk memberikan rekomendasi. CF bekerja berdasarkan asumsi bahwa jika sekelompok pengguna
memiliki preferensi yang mirip di masa lalu, mereka kemungkinan akan memiliki preferensi serupa di masa
depan (Schafer et al., 2007). Metode ini dapat dibagi menjadi dua pendekatan utama: User-Based dan Item- Based Collaborative Filtering.
Page 2 of 10
41
User-Based Collaborative Filtering: Pendekatan ini merekomendasikan item kepada pengguna
berdasarkan kesamaan preferensi dengan pengguna lain. Misalnya, jika pengguna A dan B memiliki
sejarah preferensi yang mirip, maka item yang disukai oleh A dapat direkomendasikan kepada B
(Sarwar et al., 2001).
Item-Based Collaborative Filtering: Dalam pendekatan ini, item direkomendasikan berdasarkan
kesamaan dengan item lain yang telah dinikmati oleh pengguna. Jika seorang pengguna menyukai
item X, dan item X sering disukai bersama dengan item Y oleh pengguna lain, maka item Y akan
direkomendasikan (Koren et al., 2009).
Meskipun metode Collaborative Filtering telah terbukti efektif, pendekatan ini juga memiliki beberapa
kelemahan, seperti masalah cold start dan sparsity. Masalah cold start terjadi ketika ada pengguna atau item
baru dengan sedikit informasi sehingga sulit untuk memberikan rekomendasi yang akurat (Bobadilla et al.,
2013).
Content-Based Filtering
Content-Based Filtering (CBF) adalah pendekatan yang merekomendasikan item berdasarkan karakteristik
atau fitur dari item itu sendiri. Pendekatan ini menggunakan atribut-atribut deskriptif dari item dan
mencocokkannya dengan profil preferensi pengguna (Lops et al., 2011). Misalnya, dalam konteks
rekomendasi film, jika seorang pengguna menyukai film bergenre aksi dengan aktor tertentu, maka sistem
akan merekomendasikan film lain dengan genre dan aktor yang sama.
Pendekatan CBF memiliki keunggulan dalam mengatasi masalah cold start karena dapat memberikan
rekomendasi bahkan ketika data interaksi pengguna masih terbatas (Pazzani & Billsus, 2007). Namun, CBF
juga memiliki keterbatasan, seperti kecenderungan untuk memberikan rekomendasi yang kurang beragam
dan terlalu fokus pada fitur-fitur yang telah diketahui pengguna (Steck, 2011).
Pendekatan Hibrida
Untuk mengatasi kelemahan masing-masing pendekatan, banyak penelitian yang mengusulkan penggunaan
pendekatan hibrida yang menggabungkan Collaborative Filtering dan Content-Based Filtering. Pendekatan
hibrida dapat meningkatkan akurasi dan cakupan rekomendasi dengan menggabungkan keunggulan dari
kedua metode tersebut (Burke, 2002). Dalam pendekatan ini, rekomendasi dapat diperoleh dengan
menggabungkan skor dari kedua metode, atau dengan menggunakan metode lain seperti ensemble learning
untuk menghasilkan rekomendasi yang lebih akurat (Jawaheer et al., 2014).
Penelitian ini bertujuan untuk mengembangkan algoritma rekomendasi yang lebih efektif dengan
menggabungkan Collaborative Filtering dan Content-Based Filtering. Melalui pendekatan hibrida ini,
diharapkan dapat diperoleh rekomendasi yang lebih relevan dan sesuai dengan preferensi pengguna,
sekaligus mengatasi masalah cold start dan sparsity yang sering ditemui pada sistem rekomendasi
tradisional.
Metodologi Penelitian
Penelitian ini mengadopsi pendekatan kuantitatif untuk mengembangkan dan menguji efektivitas algoritma
rekomendasi berbasis pendekatan Collaborative Filtering dan Content-Based Filtering. Penelitian ini
terdiri dari beberapa tahap, yaitu pengumpulan data, pra-pemrosesan data, pengembangan model, evaluasi
model, dan analisis hasil.
Pengumpulan Data
Data yang digunakan dalam penelitian ini diperoleh dari dua sumber utama:
Data Interaksi Pengguna: Data ini mencakup informasi tentang preferensi dan perilaku pengguna
terhadap item tertentu, seperti riwayat penilaian, pembelian, atau konsumsi konten. Data ini sangat
Page 3 of 10
42
penting untuk pendekatan Collaborative Filtering karena memungkinkan model untuk memahami
pola preferensi pengguna (Koren et al., 2009).
Data Konten: Data ini mencakup fitur-fitur deskriptif dari item yang direkomendasikan, seperti
kategori, deskripsi, atribut, dan karakteristik lainnya. Data konten sangat penting untuk pendekatan
Content-Based Filtering karena membantu dalam mencocokkan item dengan preferensi pengguna
berdasarkan atribut yang relevan (Pazzani & Billsus, 2007).
Pra-Pemrosesan Data
Pada tahap ini, data yang telah dikumpulkan akan diproses untuk memastikan kualitas dan konsistensi.
Langkah-langkah pra-pemrosesan meliputi:
Pengisian Data Hilang (Missing Values): Beberapa data pengguna mungkin tidak lengkap. Metode seperti
imputasi rata-rata atau nilai default digunakan untuk mengisi data yang hilang (Little & Rubin, 2019).
Normalisasi Data: Data penilaian pengguna biasanya memiliki skala yang berbeda-beda. Normalisasi
digunakan untuk memastikan bahwa skala penilaian konsisten sehingga model dapat menghasilkan
rekomendasi yang lebih akurat (Sarwar et al., 2001).
Pengembangan Model
Pada tahap ini, dua pendekatan utama akan digunakan untuk mengembangkan algoritma rekomendasi:
Collaborative Filtering (CF): Model ini akan dikembangkan dengan menggunakan pendekatan
Matrix Factorization yang dikenal efektif dalam menangani data interaksi pengguna yang besar
dan sparsity. Teknik Singular Value Decomposition (SVD) akan digunakan untuk memfaktorkan
matriks interaksi pengguna-item (Koren, 2008).
Content-Based Filtering (CBF): Model ini akan dibangun dengan menggunakan metode TF-IDF
(Term Frequency-Inverse Document Frequency) untuk menganalisis konten item dan
mencocokkannya dengan preferensi pengguna. Profil pengguna akan dibuat berdasarkan fitur-fitur
item yang telah mereka interaksi sebelumnya (Lops et al., 2011).
Penggabungan Pendekatan Hibrida
Untuk mengatasi kelemahan masing-masing pendekatan, penelitian ini akan mengimplementasikan metode
hibrida yang menggabungkan Collaborative Filtering dan Content-Based Filtering. Pendekatan hibrida ini
akan diuji menggunakan teknik ensemble seperti Weighted Hybridization, di mana bobot tertentu diberikan
pada hasil dari CF dan CBF berdasarkan kinerja model (Burke, 2002).
Evaluasi Model
Tahap evaluasi model bertujuan untuk mengukur kinerja algoritma rekomendasi yang dikembangkan.
Metode evaluasi yang digunakan meliputi:
Metode Evaluasi Kuantitatif: Menggunakan metrik seperti Precision, Recall, F1-Score, dan Mean
Absolute Error (MAE) untuk mengukur akurasi dan relevansi rekomendasi (Herlocker et al., 2004).
Evaluasi Kualitatif: Pengguna akan diminta untuk menilai kualitas rekomendasi berdasarkan
pengalaman mereka dalam menggunakan sistem rekomendasi, guna memahami aspek lain seperti
kepuasan dan kemudahan penggunaan (Jawaheer et al., 2014).
Analisis dan Interpretasi Hasil
Setelah model dievaluasi, hasil akan dianalisis untuk memahami kinerja algoritma dan potensi perbaikan.
Analisis ini akan mencakup:
Analisis Kuantitatif: Melakukan analisis statistik terhadap metrik evaluasi untuk mengidentifikasi
model mana yang memberikan kinerja terbaik (Jannach et al., 2012).
Analisis Kualitatif: Meninjau umpan balik pengguna dan hasil rekomendasi untuk memahami
kelebihan dan kekurangan sistem (Said et al., 2013).
Hasil dan Pembahasan
Hasil Evaluasi Model
Page 4 of 10
43
Setelah pengembangan algoritma rekomendasi menggunakan pendekatan Collaborative Filtering (CF),
Content-Based Filtering (CBF), dan pendekatan hibrida, model-model tersebut dievaluasi untuk menilai
kinerja dan relevansi rekomendasi yang dihasilkan. Evaluasi ini dilakukan menggunakan data uji yang
mencakup interaksi pengguna dengan berbagai item.
Hasil Evaluasi Collaborative Filtering: Model CF menunjukkan kinerja yang baik dalam memberikan
rekomendasi kepada pengguna yang memiliki riwayat interaksi yang cukup. Model ini mampu
mengidentifikasi pola preferensi pengguna berdasarkan interaksi dengan pengguna lain yang memiliki
preferensi serupa. Namun, model ini menunjukkan penurunan kinerja saat menghadapi masalah cold start,
di mana pengguna baru atau item baru belum memiliki cukup data interaksi (Schafer et al., 2007).
Hasil Evaluasi Content-Based Filtering: Model CBF memberikan kinerja yang cukup baik dalam
merekomendasikan item kepada pengguna dengan memperhatikan fitur-fitur konten yang sesuai dengan
preferensi mereka. Model ini tidak terlalu terpengaruh oleh masalah cold start karena dapat memanfaatkan
data atribut item. Namun, hasil rekomendasinya cenderung kurang beragam dan terbatas pada fitur yang
sudah ada dalam profil pengguna (Pazzani & Billsus, 2007).
Hasil Evaluasi Pendekatan Hibrida: Model hibrida yang menggabungkan CF dan CBF menghasilkan
rekomendasi yang lebih akurat dan relevan dibandingkan dengan penggunaan model secara terpisah.
Pendekatan ini mampu memanfaatkan kekuatan dari kedua metode dan mengatasi kelemahan masing- masing. Model hibrida menunjukkan peningkatan dalam metrik evaluasi seperti Precision dan Recall, dan
mampu memberikan rekomendasi yang lebih beragam kepada pengguna (Burke, 2002).
Evaluasi Menggunakan Metrik Kuantitatif
Evaluasi kuantitatif dilakukan menggunakan beberapa metrik utama, seperti Precision, Recall, F1-Score,
dan Mean Absolute Error (MAE). Metrik ini digunakan untuk mengukur efektivitas rekomendasi yang
dihasilkan oleh masing-masing model.
Precision mengukur proporsi item yang direkomendasikan yang benar-benar relevan dengan
pengguna. Model hibrida menunjukkan precision yang lebih tinggi (0,82) dibandingkan dengan CF
(0,75) dan CBF (0,78), menunjukkan bahwa model ini lebih efektif dalam memberikan
rekomendasi yang relevan.
Recall menghitung proporsi item relevan yang berhasil direkomendasikan oleh model. Model
hibrida memiliki nilai recall sebesar 0,76, yang lebih tinggi daripada CF (0,70) dan CBF (0,72),
menunjukkan bahwa pendekatan hibrida lebih efektif dalam menemukan item yang relevan untuk
pengguna.
F1-Score adalah rata-rata harmonis dari precision dan recall, dan digunakan sebagai indikator
keseluruhan kinerja model. Model hibrida memiliki F1-Score tertinggi (0,79), menunjukkan kinerja
keseluruhan yang lebih baik.
Mean Absolute Error (MAE) digunakan untuk mengukur kesalahan rata-rata antara prediksi dan
nilai sebenarnya. Model hibrida memiliki MAE yang lebih rendah (0,22) dibandingkan dengan CF
(0,30) dan CBF (0,28), menunjukkan bahwa model hibrida lebih akurat dalam memprediksi
preferensi pengguna.
Berikut adalah tabel yang menggambarkan hasil evaluasi kuantitatif: