DETAIL DOCUMENT
IMPLEMENTASI DEEP REINFORCEMENT LEARNING PADA PERMAINAN SOCCER SIMULATION 2D
Total View This Week0
Institusion
Institut Teknologi Bandung
Author
Adi Kuncoro, Azis (STUDENT ID : 13515120)
(LECTURER ID : 0009037605)
(LECTURER ID : 0008127810)
Subject
 
Datestamp
0000-00-00 00:00:00 
Abstract :
Reinforcement learning merupakan salah satu sub permasalahan dari machine learning dimana agen belajar bagaimana melakukan tindakan terbaik pada suatu kondisi di sebuah lingkungan. Deep learning mampu membantu reinforcement learning dalam merepresentasikan state space yang besar. Dengan menggunakan deep reinforcement learning agen dapat bermain pada lingkungannya tanpa pengetahuan awal. Permainan soccer simulation 2D merupakan lingkungan permainan yang mensimulasikan permainan sepak bola. Salah satu pengembangan dari soccer simulation 2D adalah Half Field Offense (HFO). HFO menyediakan fitur-fitur yang membantu dalam pembelajaran reinforcement learning seperti pembelajaran episodik, pilihan untuk menggunakan high level atau low level action maupun state space, ketersediaan agen hand-coded dan juga agen random sebagai baseline, tersedia dalam bahasa python dan C++. Pada tugas akhir ini, digunakan metode advantage actor critic (A2C). Dalam implementasinya, A2C memiliki dua deep neural network, yaitu network actor dan network critic. Network actor bertugas memilih aksi untuk agen. Network actor menerima input berupa state dari permainan HFO pada suatu timestep dan output-nya berupa kode dari aksi yang bersifat diskrit. Sedangkan network critic bertugas menilai seberapa baik aksi yang dihasilkan berdasarkan state-nya. Network critic menerima input berupa state dan aksi yang dipilih oleh agen dan output-nya berupa nilai evaluasi dari melakukan aksi pada state tersebut. Terdapat dua jenis agen yang dilatih, yaitu agen penyerang dan agen bertahan. Skenario permainan yang dipilih adalah 5 vs 5, hal ini didasarkan pada permainan futsal yang menggunakan jumlah pemain sebanyak itu. Untuk setiap agen terdapat model A2C-nya tersendiri. Strategi koordinasi antar agen dipelajari oleh agen saat fase pembelajaran. Pembelajaran agen dilakukan sejumlah 10.000 epoch melawan agen hand-coded. Hasil yang didapat adalah A2C mampu melampaui baseline yang berupa agen random. Namun, masih sedikit dibawah performa agen hand-coded. 

Institution Info

Institut Teknologi Bandung