Klasifikasi Komentar Abusive Dan Hate Speech Teks Twitter Menggunakan Metode Convolutional Neural Network

Indri Pangestuti; Surya Agustian

Penulis

Indri Pangestuti Teknik Informatika , Fakultas Sains & Teknologi, UIN Sultan Syarif Kasim Riau
Surya Agustian Teknik Informatika , Fakultas Sains & Teknologi, UIN Sultan Syarif Kasim Riau

Kata Kunci:

deep learning, klasifikasi, convolutional neural network, Ujaran Kebencian, bahasa kasar

Abstrak

Twitter salah satu media sosial yang banyak digunakan saat ini, terutama untuk mengeluarkan pendapat secara bebas. Tidak adanya mekanisme penyeleksian kata-kata dan kalimat pada twitter, menyebabkan siapa saja dapat melontarkan ujaran kebencian maupun penggunaan bahasa kasar terhadap orang atau golongan lain. Ujaran kebencian dan bahasa kasar sering ditemukan pada twitter dalam berbagai kasus maupun topik percakapan, seperti perseteruan antar kelompok, ketidakpuasan terhadap produk, sampai kepada protes terhadap kebijakan pemerintah. Penelitian ini mengusulkan penggunaan deep learning untuk mengklasifikasi apakah tweet mengandung ujaran kebencian atau bahasa kasar. Metode yang digunakan Convolutional Neural Network dengan input fitur teks word embedding word2vec. Beberapa skenario pengujian dilakukan untuk mendapatkan hasil optimal dengan melakukan training pada 90% data. Model final yang dipilih diterapkan terhadap data testing sebanyak 10% dari data set, memperoleh akurasi untuk kelas hate speech sebesar 84,92%, dan untuk kelas abusive 91,47%. Hasilnya sangat baik dan kompetitif bila dibandingkan dengan metode-metode machine learning konvensional.

Unduhan

Data unduhan belum tersedia.

Biografi Penulis

Indri Pangestuti, Teknik Informatika , Fakultas Sains & Teknologi, UIN Sultan Syarif Kasim Riau

Departemen Teknik Informatika

Fakultas Teknik

Surya Agustian, Teknik Informatika , Fakultas Sains & Teknologi, UIN Sultan Syarif Kasim Riau

Departemen Teknik Informatika

Fakultas Teknik

Referensi

Nasrullah, Rulli, Media Sosial: perspektif komunikasi, budaya, dan sositeknologi, ISBN 978-602-7973-25-1. Bandung, 2015

L. P. A. S. Tjahyanti, Pendeteksian Bahasa Kasar (Abusive Language) dan Ujaran Kebencian (Hate Speech) dari Komentar Di Jejaring Sosial. Journal of Chemical Information and Modeling,” Jurnal Pendidikan, vol. 07 No. 01, pp. 1-14, 2020.

D. T. McGonagle, “The Council of Europe against online hate speech:Conundrums and challenges,” pp. 1-40, 2013.

W. N. Dewani, P. S. A. and Y. Azhar, “Klasifikasi Multi-label Ujaran Kasar dan Kebencian (Hate Speech & Abusive) Pada Media Sosial Twitter di Indonesia,” pp. 1-11.

F. Ihsan, I. Iskandar, N. S. Harahap and S. Agustian, “Algoritme decision tree untuk mendeteksi ujaran kebencian dan bahasa kasar,” Jurnal Teknologi dan Sistem Komputer, pp. 1-6, 2021.

A. Fransiska, S. Agustian, F. Insani, M. Fikry and Pizaini, “Algoritme Logistic Regression untuk Mendeteksi Ujaran Kebencian dan Bahasa Kasar Multilabel pada Twitter Berbahasa Indonesia,” Jurnal Nasional Komputasi dan Teknologi Informasi, vol. V, pp. 1-5, 2022.

H., Setiawandari, H.I., Mundandar, Hate Speech In Election 2019: Case Study Of Youth Organizations, J. Strateg. Glob., vol. 4 No.1, 2021.

B. J, “Regulating hate speech online,” Int. Rev. Law, Comput. Technol, vol. 24 No.3, pp. 233-239, 2010.

A. F. Hidayatullah, A. A. F. Yusuf, K. P. Juwairi and R. A. N. Nayoan, “Identifikasi Konten Kasar pada Tweet Bahasa Indonesia,” Jurnal Linguistik Komputasional, vol. 2 No.1, pp. 1-5, 2019.

M. Hadi, Twitter Untuk orang Awam, Palembang, 2010.

W. E. Bebas, “Klasifikasi,” Wikipedia project, 6 September 2022. [Online]. Available: https://id.wikipedia.org/wiki/Klasifikasi.

I. Gamayanto, F. E. Nilawati and Suharnawi, “Pengembangan dan Implementasi dari Wise Netizen (EComment) di Indonesia,” Tecno.com, vol. 16 No.1, pp. 1-16, 2017.

E. Retnawiyati, Fatoni and E. S. Negara, “Analisis Sentimen Pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk,” 2015.

A. C. Pradikdo and A. Ristyawan, “Model Klasifikasi Abstrak Skripsi Menggunakan Text Mining untuk Pengkategorian Skripsi Sesuai Bidang Kajian,” Simetris, vol. 8 No.2, pp. 1-8, 2018.

A. Ayedh, G. TAN, K. Alwesabi and H. Rajeh, “The Effect of Preprocessing on ArabicDocument Categorization,” Algorithms, pp. 1-17, 2016.

T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Efficient estimation of word representations in vector space,” 1st Int. Conf. Learn. Represent. ICLR 2013 - Work. Track Proc., pp. 1–12, 2013.

T. Mikolov, J. Kopecky, L. Burget, O. Glembek and J.H. Cernocky, “Neural Network Based Language Models for Highly Inflective Languages”, in Proc.: ICASSP 2009.

M. O. Ibrohim and I. Budi, “Multi-label Hate Speech and Abusive Language Detection in Indonesian Twitter,” Proceedings of the Third Workshop on Abusive Language Online, pp. 46-57, 2019.

A. Amri, “Implementasi Algoritma Random Forest Untuk Mendeteksi Hate Speech Dan Abusive Language Pada Twitter Bahasa Indonesia”, thesis report, UIN Suska Riau, 2020

A. Fadhilah, “Penerapan Algoritma K-Nearest Neighbor untuk Mendeteksi Ujaran Kebencian dan Bahasa Kasar Pada

Twitter Bahasa Indonesia”, thesis report, UIN Suska Riau, 2021

T. Ghassani, “Klasifikasi Hate Speech dan Abusive Language pada Twitter Bahasa Indonesia dengan Metode Naive Bayes Classifier”, thesis report, UIN Suska Riau, 2021

R. Saputra, “Implementasi Bidirectional Encoder Representations From Transformers (BERT) untuk Mendeteksi Hatespeech dan Abusive Language pada Twitter Bahasa Indonesia”, thesis report, UIN Suska Riau, 2022