RAMA REPOSITORY

REPOSTIORY INFO

            TITLE : 
Perpustakaan Digital ITB          
            
              URL : 

              https://digilib.itb.ac.id
            
            SOFTWARE PLATFORM : 

            TOTAL DOCUMENT :

            99020
          
          IMPLEMENTASI DEEP REINFORCEMENT LEARNING PADA PERMAINAN SOCCER SIMULATION 2D

          Total View This Week0
          
                  Institusion
                  
                  Institut Teknologi Bandung                  

          Author
          
          Adi Kuncoro, Azis (STUDENT ID : 13515120)
 (LECTURER ID : 0009037605)
 (LECTURER ID : 0008127810)
          
                Subject
                
                Datestamp
                
                0000-00-00 00:00:00 
                
                Abstract :

                Reinforcement learning merupakan salah satu sub permasalahan dari machine learning dimana agen belajar bagaimana melakukan tindakan terbaik pada suatu kondisi di sebuah lingkungan. Deep learning mampu membantu reinforcement learning dalam merepresentasikan state space yang besar. Dengan menggunakan deep reinforcement learning agen dapat bermain pada lingkungannya tanpa pengetahuan awal.
Permainan soccer simulation 2D merupakan lingkungan permainan yang mensimulasikan permainan sepak bola. Salah satu pengembangan dari soccer simulation 2D adalah Half Field Offense (HFO). HFO menyediakan fitur-fitur yang membantu dalam pembelajaran reinforcement learning seperti pembelajaran episodik, pilihan untuk menggunakan high level atau low level action maupun state space, ketersediaan agen hand-coded dan juga agen random sebagai baseline, tersedia dalam bahasa python dan C++.
Pada tugas akhir ini, digunakan metode advantage actor critic (A2C). Dalam implementasinya, A2C memiliki dua deep neural network, yaitu network actor dan network critic. Network actor bertugas memilih aksi untuk agen. Network actor menerima input berupa state dari permainan HFO pada suatu timestep dan output-nya berupa kode dari aksi yang bersifat diskrit. Sedangkan network critic bertugas menilai seberapa baik aksi yang dihasilkan berdasarkan state-nya. Network critic menerima input berupa state dan aksi yang dipilih oleh agen dan output-nya berupa nilai evaluasi dari melakukan aksi pada state tersebut.
Terdapat dua jenis agen yang dilatih, yaitu agen penyerang dan agen bertahan. Skenario permainan yang dipilih adalah 5 vs 5, hal ini didasarkan pada permainan futsal yang menggunakan jumlah pemain sebanyak itu. Untuk setiap agen terdapat model A2C-nya tersendiri. Strategi koordinasi antar agen dipelajari oleh agen saat fase pembelajaran. Pembelajaran agen dilakukan sejumlah 10.000 epoch melawan agen hand-coded. Hasil yang didapat adalah A2C mampu melampaui baseline yang berupa agen random. Namun, masih sedikit dibawah performa agen hand-coded. 

Download

                          book
                          BibTex
Latex, Jabref

                          cloud_download
                          Original Resource
url resource Institution

Institution Info

                  Institut Teknologi Bandung
TITLE : Perpustakaan Digital ITB

URL : https://digilib.itb.ac.id

SOFTWARE PLATFORM :

TOTAL DOCUMENT : 99020

TITLE :
Perpustakaan Digital ITB

URL :
https://digilib.itb.ac.id

TOTAL DOCUMENT :
99020