DETAIL DOCUMENT
Vector Space Model Dan Clustering Untuk Deteksi Kesamaan Dokumen Berbahasa Indonesia
Total View This Week0
Institusion
Universitas Komputer Indonesia
Author
Riadi, Viky Zulpikar
Subject
004_Data Processing & Computer Science 
Datestamp
2019-10-09 02:42:53 
Abstract :
Salah satu cara untuk mendeteksi plagiarisme adalah dengan mendeteksi kesamaan dokumen. Kesulitan dalam mendeteksi kesamaan dokumen adalah kesamaan dengan mengubah kalimat orang lain ke dalam susunan kalimat sendiri tanpa mengubah idenya (obfuscation). Untuk itulah diperlukan sebuah sistem untuk mendeteksi kesamaan dokumen yang tidak hanya mendeteksi kesamaan berupa exact copy tetapi juga berupa kesamaan obfuscation. Metode yang dipakai pada penelitian ini adalah Vector Space Model dan Clustering. Terdapat 4 tahapan dalam prosesnya yaitu pertama preprocessing yang terdiri dari tokenisasi kalimat, case folding, tokenisasi kata, filter kata, stemming, filter kalimat, TF-IDF. Kedua seeding yaitu membandingkan setiap kalimat pada dokumen uji dan latih dengan menggunakan Cosine Similarity dan Dice Coefficient. Ketiga extension yaitu mengkluster nilai-nilai dari proses seeding yang berupa pasangan kalimat sama kemudian nilai hasil kluster di validasi menggunakan Cosine Similarity. Keempat filtering yaitu menyeleksi nilai dari proses extension. Pengujian yang dilakukan yaitu dengan membandingkan dua buah dokumen yang berupa abstrak jurnal berbahasa Indonesia dengan topik yang sama. Jumlah datanya yaitu 2 data suspicious (data uji) dan 30 data source (data latih). Hasilnya yaitu menghasilkan akurasi recall 77,32%, precission 65,68% dan f-measure 68,31%. 
Institution Info

Universitas Komputer Indonesia