DETAIL DOCUMENT
Coded Political Hate Speech Detection on Indonesian Tweet Via Contextual Information
Total View This Week0
Institusion
Institut Teknologi Sepuluh Nopember
Author
Qorirah, Farah Dhiah
Subject
T57.5 Data Processing 
Datestamp
2023-08-04 07:55:40 
Abstract :
Hate speech on social media is a growing concern today, especially Twitter. Current reviews not only include positive and negative scores but also point to common online hate speech. Online hate speech is commonly found on social media in the form of abusive language that specifically attacks a person or people because of their race, color, religion, ethnicity, gender, or sexual orientation. Indonesia is a country that consists of many ethnicities, races, cultures, and religions, so hate speech is a challenge and threat that can divide the unity of the Indonesian nation. The spread of hate speech is on the rise in Indonesia and usually goes unchecked during general election campaigns and regional representation. Regional elections have become an arena for incitement and the spread of hatred through social media. This research detects hate speech by exploring the relationship of hate speech on Twitter using an election-connected perspective. The method in this research uses Bag-of-Words, Term Frequency - Inverse Document Frequency (TF-IDF), and Word Embedding as feature extraction and some well-known classifiers, such as Random Forest, Naive Bayes, and Support Vector Machine, and Temporal Convolutional Network (TCN) will be used as feature learning. TF-IDF, Bag-of-Words, and Word Embedding is used to convert text data into vectors. The classification results show the performance of precision, recall, accuracy, and f1- score with Random Forest, Naïve Bayes, Support Vector Machine, and Temporal Convolutional Network (TCN). In this work, it?s intended to develop a generalizable model for detecting hate speech in Bahasa Indonesia using existing hate speech sources. This research produced two evaluations of sentiment classification, namely hate speech and non-hate speech. Based on the test results, the best evaluation indicator values are a precision subset of 0.885, recall of 0.825, f1-score of 0.845, and accuracy of 0.870 is obtained when using naive bayes classification by implementing Bag of Words and Term Frequency - Inverse Document Frequency feature extraction with preprocessing stemming and cross validation of 5 or 10. =================================================================================================================================== Ujaran kebencian di media sosial menjadi perhatian yang berkembang saat ini, khususnya Twitter. Ulasan saat ini tidak hanya mencakup skor positif dan negatif tetapi juga mengarah pada ujaran kebencian online yang umum. Ujaran kebencian secara online banyak dijumpai di media sosial yang umumnya berupa bahasa kasar yang secara khusus menyerang seseorang atau beberapa orang karena ras, warna kulit, agama, suku, jenis kelamin, atau orientasi seksualnya. Indonesia merupakan negara yang terdiri dari banyak suku, ras, budaya, dan agama sehingga ujaran kebencian menjadi tantangan dan ancaman yang dapat memecah belah persatuan dan kesatuan bangsa Indonesia. Penyebaran ujaran kebencian sedang meningkat di Indonesia dan biasanya tidak terkendali selama kampanye pemilihan umum dan perwakilan daerah. Pemilihan kepala daerah menjadi ajang penghasutan dan penyebaran kebencian melalui media sosial. Penelitian ini mendeteksi ujaran kebencian dengan mengeksplorasi hubungan ujaran kebencian di Twitter menggunakan perspektif yang terhubung dalam pemilihan umum. Metode pada penelitian ini menggunakan Bag-of-Words, Term Frequency - Inverse Document Frequency (TF-IDF), dan Word Embedding sebagai ekstraksi fitur dan beberapa pengkalisifikasi terkenal, seperti Random Forest, Naive Bayes, dan Support Vector Machine, dan Temporal Convolutional Network (TCN) akan digunakan sebagai pembelajaran fitur. TF-IDF, Bag-of-Words, dan Word Embedding akan digunakan untuk mengubah data teks menjadi vektor. Pada hasil klasifikasi menunjukkan performa skor presisi, recall, akurasi, dan f1- score dengan Random Forest, Naïve Bayes, dan Support Vector Machine, dan Temporal Convolutional Network (TCN). Dalam penelitian ini bermaksud mengembangkan model yang dapat digeneralisasikan untuk mendeteksi ujaran kebencian dalam Bahasa Indonesia menggunakan sumber ujaran kebencian yang ada. Penelitian ini dapat menghasilkan dua evaluasi klasifikasi sentimen yaitu ujaran kebencian dan bukan ujaran kebencian. Berdasarkan hasil pengujian, nilai indikator evaluasi terbaik yang berhasil didapatkan yaitu subset presisi sebesar 0.885, recall sebesar 0.825, f1-score sebesar 0.845, dan accuracy sebesar 0.87, didapatkan ketika menggunakan klasifikasi naive bayes dengan mengimplementasikan ektraksi fitur Bag of Words maupun Term Frequency - Inverse Document Frequency dengan preprocessing stemming dan cross validation 5 atau 10. 
Institution Info

Institut Teknologi Sepuluh Nopember