@thesis{thesis, author={71130066 Andro Ardiyanto}, title ={KLASIFIKASI KOMENTAR PADA DATASET PEMILU PRESIDEN INDONESIA 2014 DENGAN METODE IMPROVED K-NEAREST NEIGHBOR}, year={2017}, url={https://katalog.ukdw.ac.id/1738/}, abstract={Perbedaan porsi data latih dari setiap kategori dapat mempengaruhi hasil klasifikasi untuk lebih condong ke arah porsi data latih yang paling besar. Pada algoritma k-Nearest Neighbor, nilai k berpengaruh dalam menentukan proses klasifikasi dari suatu data uji. Proses klasifikasinya juga tergantung porsi data terbanyak dari tetangga yang diambil, kemunculan paling banyak pada jumlah tetangga terdekatnya. Improved KNN muncul untuk mengatasi hal tersebut. Dalam hal ini dataset yang dipakai memiliki jumlah total 2796 data (2406 data positif dan 390 data negatif). Pertama-tama data uji akan melalui proses preprocessing yang terdiri dari (convert emoticon, cleansing, casefolding, tokenizing, filtering, stemming). Data tersebut akan diberi bobot sesuai dengan TF-IDF lalu akan dilanjutkan pada proses cos-similiarity. Pada proses tersebut akan terjadi pemilihan jumlah tetangga terbesar sesuai nilai k, lalu proses improvement KNN dijalankan dan data uji tersebut diklasifikasikan. Penelitian ini menghasilkan bahwa Improved KNN sukses dalam menaikkan akurasi pengklasifikasian. Penggunaan feature selection meningkatkan akurasi pada data latih dengan perbedaan 1800 data sebanyak 1,01%, dari 76,52% menjadi 77,53%. Peningkatan akurasi terbesar sebesar 1,48% terjadi pada skenario dengan ketimpangan data latih 900 buah, sedangkan pada data seimbang dan perbedaan data latih 300 buah, tidak terjadi perubahan akurasi jika dibandingkan dengan Default KNN.} }