Abstract :
Pelindungan data pribadi sensitif masyarakat di Indonesia merupakan hal yang sangat penting karena banyak ditemukan data pribadi masyarakat yang dipublikasi oleh instansi pemerintahan tanpa mempertimbangkan aturan yang ada. Pada penelitian ini dilakukan uji pencarian data berupa hyperlink dan kontennya pada situs resmi Komisi Pemilihan Umum (KPU) Pusat dan Provinsi menggunakan bantuan Web Crawling. Konten yang telah diperoleh dilakukan praproses data dengan bantuan Text Preprocessing dan kemudian dilakukan pembobotan dengan metode TF-IDF untuk selanjutnya diklasifikasikan menggunakan metode Naïve Bayes. Setelah itu dilakukan analisis terkait jenis data pribadi sensitif yang dipublikasikan serta tingkat publikasi berdasarkan kelompok wilayah (pusat, timur, tengah, barat), serta penyusunan rekomendasi yang dapat dilakukan oleh KPU dalam melakukan publikasi data pribadi berdasarkan UU Nomor 23 Tahun 2006 dan Peraturan Menteri Komunikasi dan Informatika Nomor 20 Tahun 2016. Berdasarkan 6.700 instance yang dianalisis ditemukan sebanyak 6.430 data pribadi yang dipublikasi. Jenis data pribadi yang dipublikasikan adalah nama lengkap, tempat lahir, tanggal lahir, jenis kelamin, agama, status perkawinan, NIP (nomor induk pegawai), NIK (nomor induk kependudukan), NPWP (nomor pokok wajib pajak), nomor rekening, nomor telepon/ handphone, alamat email, alamat tempat tinggal, jabatan/pekerjaan, foto wajah. Tingkat publikasi berdasarkan jumlah data yang ditemukan yaitu: KPU Pusat sebesar 11.45 %, wilayah timur sebesar 21.60 %, wilayah tengah sebesar 17.01 %, dan wilayah barat sebesar 49.94 %. Akurasi dari metode Naïve Bayes rata-rata sebesar 96.99 %. Rekomendasi yang harus dilakukan KPU dalam melakukan publikasi adalah menghormati data pribadi seseorang sebagai sebuah privasi, setiap publikasi data harus berdasarkan persetujuan dan menyediakan narahubung (contact person) yang mudah dihubungi.