@thesis{thesis, author={Islam Salma Izzatul}, title ={Peringkasan Artikel Berita Ekstraktif Dengan Model Natural Language Processing: Studi Perbandingan}, year={2023}, url={http://repository.its.ac.id/100089/}, abstract={Berdasarkan Kementerian Komunikasi dan Informatika Republik Indonesia disebutkan bahwa UNESCO telah menempatkan Indonesia pada peringkat kedua dari bawah terkait literasi global, hal ini menunjukkan minat baca yang sangat rendah. Terutama pada bacaan panjang berbahasa inggris seperti berita. Kurangnya minat baca menyebabkan seseorang kurang inovatif dan kesulitan dalam memahami makna dari sebuah teks. untuk mengatasi masalah peringkas teks muncul sebagai solusi potensial. Peringkasan teks adalah proses memahami dokumen teks yang panjang kemudian membuat versi dokumen yang dipersingkat untuk mengurangi informasi yang berlebihan dengan tetap mempertahankan gagasan utama teks tersebut. Peringkasan teks dapat diklasifikasikan sebagai peringkasan ekstraktif dan abstraktif. Dalam tugas akhir ini, dilakukan peringkasan ekstraktif. proses memilih kalimat-kalimat yang paling penting atau signifikan dari dokumen teks yang diberikan untuk membentuk sebuah ringkasan. Pendekatan ini tidak mengubah atau membuat kalimat baru, tetapi menggabungkan kalimat-kalimat yang ada untuk menyampaikan informasi penting dari teks asli. Terdapat banyak teknik yang dapat digunakan dalam melakukan peringkasan ekstraktif dengan memanfaatkan model Natural Language Processing. Pada artikel ini, Teknik extractive summarization dilakukan dengan membandingkan beberapa metode seperti Luhn, LexRank, TextRank dan menggabungkan metode LexRank dengan TextRank yang terdapat pada library sumy. Peringkasan ekstraktif terdiri dari beberapa tahap. Pertama, memasukan data. Kedua, proses pre-processing, yang mana meliputi tokenisasi kata, dan penghilangan stopword. Ketiga, membangun model yang digunakan. Keempat, dihasilkan ringkasan berdasarkan model. Terakhir dilakukan evaluasi dengan menghitung ROUGE. Dataset yang digunakan adalah artikel berita Bahasa Inggris yang memiliki 5 kategori yaitu olahraga, bisnis, politik, teknologi, dan hiburan. Eksperimen dilalukan 3 skenario, pertama pada keseluruhan dataset. Kedua, pada setiap kategori. Terakhir pada dataset yang telah dilakukan penghapusan 10 kata yang paling sering muncul di setiap kategori. Hasil perbandingan yang diperoleh dalam penelitian ini adalah TextRank dengan akurasi yang tertinggi yaitu 69,65%, metode Luhn dengan akurasi 68,13%. Kombinasi dari metode LexRank dan TextRank dengan akurasi 62,01%. Terakhir adalah LexRank dengan hasil akurasi 60,48%. Dapat disimpulkan bahwa metode terbaik untuk ringkasan otomatis adalah TextRank =================================================================================================================================== Based on the Ministry of Communication and Informatics of the Republic of Indonesia, UNESCO has ranked Indonesia as second from the bottom regarding global literacy, indicating a very low interest in reading. This is particularly evident in long English texts such as news articles. The low reading interest leads to a limited capacity for innovation and difficulties in understanding the meaning of a text. Text summarization emerges as a potential solution to address this issue. Text summarization is the process of understanding a long text document and then creating a shortened version of the document to reduce redundant information while keeping the main idea of the text. Text summarization can be classified as extractive and abstractive summarization. In this final project, extractive summarization is performed, which involves selecting the most important or significant sentences from the given text document to form an extractive summary. This approach does not modify or generate new sentences but combines existing sentences to convey the essential information from the original text. Many techniques can be utilized for extractive summarization by leveraging Natural Language Processing (NLP) models. This Final Project compares extractive summarization techniques, including Luhn, LexRank, TextRank, and a combination of LexRank and TextRank methods available in the Sumy library. The extractive summarization process consists of several stages. Firstly, data input. Second, the pre-processing process includes word tokenization and stopword removal. Third, building the used model. Fourth, generating the summary based on the model. Last, evaluation that conducted by calculating the ROUGE score. The dataset comprises English news articles in five categories: sports, business, politics, technology, and entertainment. The experiments are performed in three scenarios: on the entire dataset, on each category individually, and on a dataset that removes the top 10 most frequent words in each category. The results from this Final Project show that TextRank achieves the highest accuracy of 69.65%, followed by the Luhn method with an accuracy of 68.13%. The combination of LexRank and TextRank achieves an accuracy of 62.01%. Lastly, LexRank yields an accuracy of 60.48%. In conclusion, TextRank is the best method for automatic Text Summarization.} }