Institusion
Institut Teknologi Bandung
Author
Noor Endrawati, Devi (STUDENT ID : 23219333)
(LECTURER ID : 0024087001)
(LECTURER ID : 0007078707)
Subject
Datestamp
0000-00-00 00:00:00
Abstract :
Algoritma Convolutional Neural Network (CNN) banyak digunakan dalam sistem
AI modern dan telah di aplikasikan di berbagai teknologi salah satunya edge device.
CNN yang banyak digunakan di AI adalah untuk pemrosesan gambar seperti
mendeteksi dan mengklasifikasi objek dari sebuah gambar. Begitu banyak
penelitian terkait yang mengembangkan algoritma tersebut untuk meningkatkan
akurasi pada proses deteksi dengan membuat jaringan yang besar. Namun besarnya
ukuran jaringan menghadirkan tantangan pada throughput dan efisiensi energi pada
perangkat keras yang digunakannya. Model Tiny Yolo V3 merupakan salah satu
arsitektur untuk real time proses object detection yang dibuat berdasarkan algoritma
dari CNN. Pada hardware yang memanfaatkan arsitektur Tiny Yolo V3 untuk
memproses deteksi gambar secara real time akan menciptakan pergerakan data yang
signifikan. Dan juga dari sisi software sendiri, Tiny Yolo V3 dapat memanfaatkan
korelasi dalam data atau menghilangkan weight dengan menggunakan Model
Compression Techniques yaitu Pruning dan Quantization. Fungsi pruning itu
sendiri agar data yang diolah menggunakan weight/bobot dan koneksi terbaik dari
sebuah jaringan Tiny Yolo V3. Dari hasil proses pruning tersebut didapatkan data
weight yang bersifat sparse yang memiliki banyak nilai nol/ zero. Sedangkan proses
quantization dilakukan untuk memperkecil data size dari weight tersebut.
Proses inference yang memanfaatkan data weight yang telah melalui proses
kompresi adalah konvolusi. Sedangkan hasil dari proses pruning pada Tiny Yolo
V3 memiliki tingkat sparsity hingga mencapai 75% di beberapa layer, itu artinya
pada proses konvolusi untuk proses inference akan banyak melakukan proses
perkalian dengan nilai nol. Melibatkan nilai nol pada proses konvolusi untuk proses
inference akan menjadi kurang efisien. Maka dirancanglah sebuah hardware yang
dapat melakukan proses konvolusi dengan melewati data-data yang memiliki nilai
nol dan hanya akan mengolah data bukan nol saja. Pada penelitian ini akan
dirancang arsitektur accelerator konvolusi agar data sparse weight yang masuk ke
dalam proses konvolusi akan sesuai dengan data input fmap yang dibutuhkan, untuk
itu diperlukan data index untuk memilih input fmap tersebut. Arsitektur yang
dirancang dapat memilih data input fmap berdasarkan index dan melakukan
mapping hasil data, agar nantinya output dapat digunakan untuk proses selanjutnya.
Semua data weight dengan nilai nol akan disingkirkan setelah proses training
dengan pruning, maka input weight yang masuk ke dalam accelerator akan mengalir
dan melakukan proses konvolusi tanpa ada nya delay. Nantinya dengan melakukan
iii
proses konvolusi hanya dengan input weight non zero dan input fmap yang
disesuaikan dari proses indexing akan menghasilkan proses konvolusi yang lebih
cepat dan efisien. Dimana hasil dari penelitian ini adalah design accelerator
konvolusi untuk data sparse yang telah di kompresi dari hasil proses training Tiny
yolo V3 menggunakan pruning dan quantization. Hasil pengujian rancangan design
menunjukkan hasil dari akselerator memberikan hasil output dari proses konvolusi
lebih cepat apabila diaplikasikan menggunakan data sparse yang telah dipangkas.
Hasil perhitungan seluruh layer Tiny Yolo V3 jika melakukan proses konvolusi
dengan menggunakan akselerator yang dirancang mampu mereduksi 56% dari
proses konvolusi dengan menggunakan data dense weight. Besar data weight yang
diperlukan untuk proses konvolusi menggunakan akselerator ini sebesar 2.5 MB.
Besar data ini lebih kecil dibandingkan data weight hasil pruning dan kuantisasi
yaitu sebesar 4.7 MB.