Abstract :
Kanker paru-paru merupakan penyakit dengan adanya pertumbuhan sel tidak
terkontrol pada jaringan paru-paru. Kanker paru-paru dapat menyerang siapa saja
dan sering tidak menimbulkan gejala awal, maka perlu adanya deteksi kanker.
Penelitian ini tentang deteksi kanker menggunakan Algoritma Data Mining dengan
metode machine learning Random Forest dan Support Vector Machine (SVM).
Random Forest diawali dengan teknik klasifikasi dasar decision tree. Sesuai dengan
namanya, konsep metode klasifikasi ini menciptakan sebuah hutan (forest) dengan
sejumlah pohon (tree) secara acak (random). Sedangkan konsep metode klasifikasi
SVM menjelaskan bagaimana upaya sederhana untuk menemukan fungsi pemisah
terbaik (hyperplane). Dasarnya SVM bekerja dengan prinsip linier classifier,
kemudian dikembangkan untuk dapat bekerja pada kasus non linear dengan
menggunakan konsep kernel pada ruang kerja berdimensi tinggi.
Hasil klasifikasi Random Forest menghasilkan akurasi sebesar 90,32%.
Sedangkan, hasil klasifikasi SVM menghasilkan akurasi sebesar 87,10%. Supaya
dapat menampilkan visualisasi dari hasil klasifikasi masing-masing metode pada
ruang 2D maka penelitian ini menggunakan PCA (Principal Component Analysis).
PCA juga sangat berpengaruh dalam meningkatkan akurasi dalam sebuah metode
klasifikasi, dapat dilihat pada metode Random Forest menggunakan PCA
menghasilkan akurasi sebesar 100% dan metode SVM menggunakan PCA
menghasilkan akurasi sebesar 93,47%.
Tujuan dari penelitian ini adalah melakukan perbandingan akurasi di antara
metode-metode klasifikasi yang sudah di analisis seperti metode Random Forest,
SVM, PCA-Random Forest, dan PCA-SVM. Di antara empat metode tersebut dapat
ditarik kesimpulan bahwa metode PCA-Random Forest menghasilkan tingkat
akurasi tertinggi sebesar 100%. Artinya, metode tersebut sangat baik dalam mengelompokkan kelas orang normal dan kelas orang terdiagnosis kanker paruparu tanpa adanya misklasifikasi. Visualisasi hasil klasifikasi Random Forest dan
SVM mampu memperlihatkan berapa jumlah orang yang normal, jumlah orang
yang terdiagnosis kanker paru-paru dan jumlah data yang misklasifikasi.