Penerapan Model Pembelajaran dengan Metode Reinforcement Learning Menggunakan Simulator Carla

(1)

Penerapan Model Pembelajaran dengan Metode Reinforcement Learning Menggunakan Simulator Carla

Arie Satia Dharma, Veronika Tambunan

Fakultas Informatika dan Teknik Elektro, Program Studi Informatika, Institut Teknologi Del, Toba, Indonesia Email: ^1,*[email protected], ²[email protected]

Email Penulis Korespondensi: [email protected]

Abstrak−Artificial intelligence adalah studi tentang bagaimana membuat sebuah mesin atau program komputer memiliki kecerdasan atau kemampuan untuk melakukan hal yang dapat dilakukan manusia. Penerapan AI saat ini digunakan dalam berbagai macam bidang, salah satunya adalah untuk self-driving car. Untuk dapat melakukan self-driving car, AI yang ditanamkan pada sebuah mobil harus memiliki metode agar dapat berjalan dijalurnya dan dapat beradaptasi dengan lingkungannya. Reinforcement learning merupakan salah satu jenis machine learning dimana agen mempelajari sesuatu hal dengan melakukan aksi tertentu dan melihat hasil dari aksi tersebut dan berusaha untuk memaksimalkan reward yang diterima melalui interaksi dengan lingkungan berupa reward bernilai negatif atau positif. Penelitian ini mengkaji penerapan metode reinforcement learning menggunakan simulator Carla Car. Simulator tersebut digunakan untuk mengumpulkan data dengan menggunakan sensor RGB, kemudian dilakukan eksperimen pemodelan yang menghasilkan beberapa model untuk digunakan pada eksperimen simulasi. Model didapatkan dengan menggunakan algoritma Convolutional Neural Network (CNN) dengan model arsitektur NVIDIA. Dari hasil penelitian diperoleh model terbaik yang didapat pada eksperimen model dengan membandingkan nilai reward maksimal, akurasi yang tinggi dan nilai loss yang rendah adalah model 1 pada eksperimen model A dengan 100 episode dan model 4 pada eksperimen model B dengan 150 episode.

Kata Kunci: Self-driving Car; Reinforcement Learning; Convolutional Neural Network (CNN); Carla Car Simulator Abstract−Artificial Intelligence is the study of how to make machines or computer programs have the intelligence or ability to do things that humans can do. The application of AI is currently in various ways, one of which is for self-driving cars. To be able to do a self-driving car, the AI that is implanted in a car must applied to the method to be able to walk on its path and be able to adapt to its environment. Reinforcement learning is one type of machine learning where agents learn something by doing certain actions and the results of those actions and try to maximize the gifts received through interactions with the environment that are reward negative or positive. In this research, we applied of the reinforcement learning method on the Carla Car simulator. The simulator is used to collect data using an RGB sensor, then modeling experiments which produce several models to be used in simulation experiments. The model is obtained by using the Convolutional Neural Network (CNN) algorithm with the NVIDIA architectural model. From the results of research based on experiments conducted obtained the best model obtained from the experimental model by comparing the maximum reward value, high accuracy and low loss is model 1 in the experimental model A with 100 episodes and model 4 in model B experiment with 150 episodes.

Keywords: Self-driving Car; Reinforcement Learning; Convolutional Neural Network (CNN); Carla Car Simulator

1. PENDAHULUAN

Autonomous driving atau sering disebut sebagai mobil otonom adalah mobil yang memiliki kemampuan untuk berkendara tanpa menggunakan manusia sebagai pengemudi. Untuk dapat berkendara tanpa pengemudi tersebut maka dibutuhkan mesin yang memiliki kecerdasan agar mobil yang dikendalikan tidak menabrak dan mencelakai pengguna jalan lainnya.

AI adaptif muncul di tengah perkembangan AI dengan memanfaatkan teknik learning artificial neural network, genetic algorithm dan teknik lainnya. Untuk dapat memanfaatkan AI pada sebuah mobil otonom maka agen AI harus bisa mengenali lingkungannya, seperti jalan raya dan tepi-tepi jalan [4][8]. Agen AI harus dapat mengenali lingkungan tersebut dengan menggunakan sudut belokan yang harus dicapai atau belajar mengenali batas-batas tepi jalan [16], dan untuk menyelesaikan masalah pengenalan lingkungan ini maka agen membutuhkan sebuah metode pembelajaran yaitu reinforcement learning. Reinforcement learning merupakan pembelajaran dari umpan balik yang diterima melalui interaksi dengan lingkungan [14].

Penelitian terhadap reinforcement learning sudah dilakukan sebelumnya oleh beberapa peneliti seperti [17]

yang menerapkan metode learning dengan menggunakan transfer learning dan hasil penelitian tersebut menunjukkan bahwa simulator memiliki peran yang besar dalam hal mempersiapkan data dengan mengaplikasikan beberapa model CNN yang dilakukan menggunakan transfer learning untuk mendapatkan hasil yang menjanjikan.

Selanjutnya [13] dengan melakukan train data menggunakan DNN untuk mengarahkan mobil didalam simulasi serta hasil yang diperoleh dengan set pelatihan kecil, model menunjukkan kemampuan untuk mempertahankan lajur dan menyelesaikan putaran dalam trek yang berbeda. Hasilnya menunjukkan bahwa reinforcemen learning dapat digunakan untuk mengemudi secara mandiri dalam skenario baru dan tidak dikenal.

Penelitian [2] menggabungkan reinforcement learning dengan recurrent neural network untuk mendapatkan informasi terintegrasi dari lingkungan untuk kemudian di implementasikan ke dalam simulator mobil balap 3D yang disebut TORCS. Hasilnya menunjukkan bahwa pembelajaran manuver otonom dalam skenario lekukan jalan yang kompleks dan interaksi sederhana dari kendaraan lain dapat dilakukan.

(2)

Dalam penelitian ini, peneliti akan menerapkan metode reinforcemen learning pada simulator mobil terhadap mobil driving autonomous dengan menggunakan Carla Python, tensorflow, agent DQN dan penerapan reward. Tujuan dari agen adalah memilih tindakan yang tepat untuk mendapatkan reward terbesar, jika tindakan bernilai positif, maka reward atau hadiah yang diperoleh besar, sedangkan jika aksi yang dilakukan agent bernilai negatif seperti mengalami kecelakaan maka hadiah yang diperoleh bernilai negatif juga. Dalam hal ini, agen dapat meramalkan tidakan masa depan dan mengantisiapasi tindakan-tindakan yang harus diambil pada saat ini dan yang dapat memaksimalkan hadiah di masa depan. Dengan demikian kajian ini diharapkan dapat menghasilkan model pembelajaran yang paling efektif dengan membandingkan penggunaan komponen reward tertinggi dan nilai loss terendah yang dihasilkan.

Simulator mobil yang digunakan dalam penelitian ini adalah simulator Carla. Simulator Carla merupakan simulator mengemudi otonom open-source yang telah dikembangkan untuk mendukung pengembangan, pelatihan, dan validasi sistem mengemudi otonom [6]. Selain itu CARLA menyediakan aset digital terbuka (tata ruang perkotaan, bangunan, kendaraan) yang diciptakan untuk tujuan dapat digunakan secara bebas.

2. METODOLOGI PENELITIAN

2.1 Tahapan Penelitian

Tahapan awal pada penelitian ini adalah dengan melakukan studi literatur mengenai metode yang akan digunakan beserta bagaimana cara mengimplementasikannya dengan komponen-komponen yang dibutuhkan. Kemudian, tahap selanjutnya adalah melakukan analisis dan eksperimen terhadap komponen yang dibutuhkan untuk implementasi seperti analisis pada simulator yang akan digunakan. Lalu tahapan selanjutnya adalah membuat rancangan eksperimen dengan menggunakan komponen-komponen yang telah dianalisis, seperti dengan pengumpulan data, pembuatan model, dan pembuatan konektor penghubung antara simulator dan hasil model.

Gambar 1. Alur Flow Chart Reinforcement Learning 2.2 Metode Pengumpulan Data

Dataset pada penelitian ini diperoleh menggunakan simulator yang telah disediakan sebelumnya oleh Udacity yang dibuat menggunakan Unity, dimana proses pengumpulan data dilakukan dalam simulator menggunakan metode process_img yang hanya mengambil gambar dari sensor RGB yang ditempatkan pada jok mobil. Untuk hal labeling, label telah ditetapkan oleh simulator sewaktu melakukan pengambilan data menggunakan simulator tersebut.

Setiap gambar yang diambil adalah tensor 3d, yaitu nilai piksel merah, hijau dan biru. Tensor ini adalah output dari process_image. Sensor RGB pada mobil atau agen mengumpulkan jumlah data gambar sebanyak 16 gambar setiap kali satu epoch dan menggunakan empat gambar per-epoch untuk dilakukan pelatihan. Dalam mode ini, peneliti melakukan ekperimen untuk mengetahui sistem kerja simulator dan proses pengumpulan datanya.

Selain data gambar, pada pengumpulan data juga terekam beberapa nilai yang ditentukan oleh simulator tersebut membentuk sebuah log data. Dalam log data yang dihasilkan, ada beberapa parameter yang akan direkam kedalam log tersebut, yaitu data gambar, steering angle, throttle, brake. Data gambar yang dimaksud yaitu gambar dari sensor kamera RGB yang dipasang pada kapmobil yang disimulasikan untuk menangkap tampilan dari scene yang berada didepannya.

2.3 Data Pre-processing

(3)

Data preprocessing dilakukan dengan tujuan agar data yang akan diolah memiliki ukuran dan kualitas gambar yang sama. Preprocessing yang dilakukan dalam penelitian ini menggunakan multiprocessing, atau threading.

Kemudian, melakukan image pre-processing yang hanya mengambil gambar pada setiap tensor 3D yang berupa nilai piksel untuk warna merah, hijau dan biru serta mengubah ukuran gambar menggunakan metode process_img.

Peneliti menggunakan fungsi lambda untuk mendapakan data sensor dengan mengambil data dari sensor dan meneruskannya melalui beberapa fungsi yang disebut process_img. Setiap gambar yang diambil adalah tensor 3d, yaitu nilai piksel merah, hijau dan biru. Tensor ini adalah output dari process_image. Berikut ini beberapa contoh variabel yang digunakan pada proses image, yaitu:

1. Fov (float), merupakan pandang horisontal gambar dalam derajat dengan menggunakan fov = 110.

2. Height (int), merupakan tinggi gambar dalam piksel dengan menggunakan tingga gambar 480 pixel.

3. Width (int), merupakan lebar gambar dalam piksel dengan menggunakan lebar gambar 640 pixel.

4. Raw_data (bytes)

2.4 Reinforcement Learning

Metode Reinforcement Learning dapat diterapkan dengan menggunakan algoritma CNN untuk dapat mengenali jalan menggunakan data yang telah dikumpulkan sebelumnya kemudian memprediksi pergerakan selanjutnya menggunakan hasil dari data tersebut. Peneliti menggunakan 64x3 model convolutional NN yang terdiri dari 5 lapisan. Berikut ini 5 lapisan convolutional yang digunakan yaitu lapisan input, 64 node, 64 node, 64 node, layer output (ukuran ruang tindakan). Ketika input yang digunakan adalah gambar, maka pertama menggunakan lapisan konvolusional (convolutional layers) untuk mengekstrak fitur dalam gambar. Kemudian menggunakan lapisan yang terhubung sepenuhnya (connected layers) yang merupakan lapisan datar.

Adapun arsitektur model NVIDIA ini memiliki komponen CNN pada umumnya, dimana pada umumnya, arsitektur CNN dibagi menjadi 2 bagian besar, yaitu Feature Extraction Layer dan Fully Connected Layer [10].

Dalam arsitektur NVIDIA ini memilki network sekitar 27 juta koneksi dan 250 ribu parameter. Network ini terdiri dari Sembilan layer termasuk normalisasi, 5 convolution layer dan 3 fully connected layer.

3. HASIL DAN PEMBAHASAN

3.1 Rancangan Eksperimen

Dalam penelitian ini dilakukan beberapa eksperimen untuk menentukan nilai loss, acc, epsilom, reward maximum, reward average dan reward minimum dari setiap model yang menjadi bahan eksperimen.

1. Eksperimen Model

Berikut ini merupakan rancangan eksperimen model yang dilakukan dalam penelitian ini dengan membagi 2 model menjadi model A dan model B dimana pada tiap-tiap model tersebut dibagi lagi ke dalam beberapa model.

Gambar 2. Rancangan Eksperimen Model

a. Model A, pada eksperimen ini, setiap data simulasi yang telah direkam akan dilakukan training untuk mendapatkan grafik model Xception reward maximal yang berbeda. Model tersebut akan menjadi model 1, model 2, dan model 3.

Tabel 1. Eksperimen Model A

Model Log Jumlah

Episode

Process Image

Learning Rate Model 1 Xception-1592532799 100 Yes lr=0.001 Model 2 Xception-1592534131 100 Yes lr=0.001 Model 3 Xception-1592721200 100 Yes lr=0.001

b. Model B, dimana pada eksperimen ini dilakukan pemodelan dengan menggunakan optimizer ADAM dengan learning rate = 0.001 dan menggunakan 150 jumlah episode. Model tersebut akan menjadi model 4, model 5, model 6, dan model 7.

(4)

Tabel 2. Eksperimen Model B

Model Log Jumlah

Episode

Process Image

Learning Rate Model 4 Xception-1592537763 150 Yes lr=0.001 Model 5 Xception-1592539654 150 Yes lr=0.001 Model 6 Xception-1592548585 150 Yes lr=0.001 Model 7 Xception-1592551635 150 Yes lr=0.001 2. Eksperimen Simulasi

Berikut ini merupakan rancangan eksperimen simulasi yang dilakukan dengan membagi 2 simulasi menjadi simulasi A dan simulasi B dimana pada tiap-tiap simulasi tersebut dibagi lagi ke dalam beberapa simulasi.

Gambar 3. Flow Chart Eksperimen Simulasi

a. Simulasi A, dimana eksperimen ini melakukan simulasi dengan mengatur sudut roda kemudi (steering wheel angle). Dalam hal ini sudut roda kemudi yang ditentukan terdiri dari lima, yaitu -1, -0.5, 0, 0.5 dan 1 serta jumlah episode yang digunakan 100 jumlah episode.

Tabel 3. Eksperimen Simulasi A

Model Log Jumlah

Episode

Process

Image Steering Wheel Angel Model 1 Xception-1592906834 100 Yes -1, -0.5, 0, 0.5 dan 1 Model 2 Xception-1593090268 100 Yes -1, -0.5, 0, 0.5 dan 1 Model 3 Xception-1593091938 100 Yes -1, -0.5, 0, 0.5 dan 1

b. Simulasi B, dimana eksperimen ini melakukan simulasi dengan mengatur sudut roda kemudi (steering wheel angle). Dalam hal ini sudut roda kemudi yang ditentukan terdiri dari lima, yaitu -1, -0.5, 0, 0.5 dan 1 serta jumlah episode yang digunakan 150 episode.

Tabel 4. Eksperimen Simulasi B

Model Log Jumlah

Episode

Process

Image Steering Wheel Angel Model 4 Xception-1592909916 150 Yes -1, -0.5, 0, 0.5 dan 1 Model 5 Xception-1592911671 150 Yes -1, -0.5, 0, 0.5 dan 1 3.2 Hasil Eksperimen Model A

Model hasil pelatihan terbaik yang paling efektif pada eksperimen model A dapat dilihat dengan membandingkan reward maksimal dengan nilai tertinggi, akurasi tertinggi dan nilai loss yang rendah, yaitu:

1. Nilai reward max

a. Pada Tabel 5.8, reward_max model 1, yaitu 1.0 terdapat pada episode 20.

b. Pada Tabel 5.14, reward_max model 2, yaitu 1.0 terdapat pada episode 41.

c. Pada Tabel 5.20, reward_max model 3, yaitu 1.0 terdapat pada episode 20

Gambar 4. Grafik Reward Max Gabungan pada Eksperimen Model A

(5)

Pada nilai reward_max sama dengan 1.0 terdapat pada model 1 dan model 3, tetapi pada model 1 reward_max diperoleh sampai dengan pada episode 100, dengan value -280 dan pada episode 70, diperoleh reward_max dengan value -279. Sedangkan pada model 3 reward_max hanya diperoleh hanya sampai dengan episode 70 dengan value-228. Sehingga dapat disimpulkan bahwa reward_max dengan value tertingi terdapat di model 1 (Xception-1592532799) pada simulasi model A.

2. Nilai akurasi

a. Pada Tabel 5.4, acc-value tertinggi model 1, yaitu 1.0 terdapat pada episode 1, 31 dan 32.

b. Pada Tabel 5.10, acc-value tertinggi model 2 yaitu 1.0 terdapat pada episode 40.

c. Pada Tabel 5.16, acc-value tertinggi model 3, yaitu 1.0 terdapat pada episode 14, 16 dan 17

Gambar 5. Grafik Akurasi Gabungan pada Eksperimen Model A

Pada acc-value tertinggi sama dengan 1.0 terdapat pada model 1 dan model 3, tetapi pada model 1, acc-value tertinggi diperoleh sampai dengan pada episode 100 dengan value 0.875 dan pada episode 72, diperoleh acc- value 0.3125. Sedangkan pada model 3, acc-value tertinggi hanya diperoleh hanya sampai dengan episode 72 dengan value 0.375. Sehingga dapat disimpulkan bahwa acc-value tertinggi dengan value tertingi terdapat di model 1 (Xception-1592532799) pada simulasi model A.

3. Nilai loss

a. Pada Tabel 5.6, loss-value terendah model 1, yaitu 0.0014 terdapat pada episode 45 b. Pada Tabel 5.12, loss-value terendah model 2 yaitu 0.0064 terdapat pada episode 16.

c. Pada Tabel 5.18, loss-value terendah model 3, yaitu 0.0019 terdapat pada episode 48.

Gambar 6. Grafik Loss Gabungan pada Eksperimen Model A

Sehingga diperoleh loss-value terendah terdapat di model 1 (Xception-1592532799) pada simulasi model A.

Maka model dengan hasil pelatihan terbaik pada eksperimen model A adalah model 1 (Xception-1592532799).

3.3 Hasil Eksperimen Model B

Model hasil pelatihan terbaik yang paling efektif pada eksperimen model B dapat dilihat dengan membandingkan reward maksimal dengan nilai tertinggi, akurasi tertinggi dan nilai loss yang rendah, yaitu:

1. Nilai reward max

a. Pada Tabel 5.26, reward_max model 4 terdapat pada episode 10.

b. Pada Tabel 5.32, reward_max model 5 terdapat pada episode 20.

c. Pada Tabel 5.38, reward_max model 6 terdapat pada episode 20.

d. Pada Tabel 5.44, reward_max model 7 terdapat pada episode 10.

(6)

Gambar 7. Grafik Reward Max Gabungan pada Eksperimen Model B

Pada nilai reward_max tertinggi terdapat pada model empat. Sehingga dapat disimpulkan bahwa reward_max dengan value tertingi terdapat di model 4 (Xception-1592537763) pada simulasi model B dan juga reward_max pada saat bersamaan pada episode 60 diperoleh juga bahwa model 4 (Xception-1592537763) dengan value - 385.8 adalah reward_max tertinggi.

2. Nilai akurasi

a. Pada Tabel 5.22, acc-value tertinggi model 4, yaitu 1.0 terdapat pada episode 53, 54, 55, 57,78, 79, 82, 84, 93.

b. Pada Tabel 5.28, acc-value tertinggi model 5, yaitu 1.0 terdapat pada episode 61, 63, 64, 65, 69, 82, 84, 86, 91, 93, 94, 96, 146, 148, dan 150.

c. Pada Tabel 5.34, acc-value tertinggi model 6, yaitu 1.0 terdapat pada episode 11, 12, 57, 67, 69.

d. Pada Tabel 5.40, acc-value tertinggi model 7, yaitu 1.0 terdapat pada episode 11, 53, 73, 86, 104 dan 121.

Gambar 8. Grafik Akurasi Gabungan pada Eksperimen Model B

Pada perbandingan acc-value model 4, 5, 6 dan 7 diperoleh jumlah acc-value yang tertinggi sama dengan value 1.0 terdapat pada semua model simulasi B. Tetapi dengan membandingkan jumlah episode 98, diperoleh acc- value terbaik terdapat pada model 4 (Xception-1592537763) dengan value 0.3125.

3. Nilai loss

a. Pada Tabel 5.24, loss-value terendah model 4, yaitu 0.0097 terdapat pada episode 115.

b. Pada Tabel 5.30, loss-value terendah model 5, yaitu 0.0048 terdapat pada episode 122.

c. Pada Tabel 5.36, loss-value terendah model 6, yaitu 0.02 terdapat pada episode 96.

d. Pada Tabel 5.42, loss-value terendah model 16, yaitu 0.0045 terdapat pada episode 48.

Gambar 9. Grafik Kehilangan Gabungan pada Eksperimen Model B

(7)

Sehingga diperoleh loss-value terendah terdapat di model 7 (Xception-1592532799) pada simulasi model B.

Maka model dengan hasil pelatihan terbaik pada eksperimen model B dengan membandingkan reward_max tertinggi, akurasi tertinggi dan loss rendah diperoleh dari model 4 (Xception-1592537763).

3.4 Pembahasan Eksperimen 1. Simulasi A

Pada simulasi A, dimana pembeda dari eksperimen yang dilakukan adalah mengatur sudut roda kemudi (steering wheel angle) menjadi menggunakan lima nilai, yaitu -1, -0.5, 0, 0.5 dan 1 serta jumlah episode yang digunakan 100 jumlah episode. Semakin bertambah nilai sudut roda kemudi, maka semakin baik hasil yang lebih baik untuk nilai akurasi yang diperoleh sehingga reward maksimal meningkat, serta nilai FPS yang diperoleh semakin meningkat.

2. Simulasi B

Pada simulasi B, dimana pembeda dari eksperimen yang dilakukan adalah mengatur sudut roda kemudi (steering wheel angle) menjadi menggunakan lima nilai, yaitu -1, -0.5, 0, 0.5 dan 1 serta jumlah episode yang digunakan 150 jumlah episode. Semakin bertambah nilai sudut roda kemudi, maka semakin baik hasil yang lebih baik untuk nilai akurasi yang diperoleh sehingga reward maksimal meningkat, serta nilai FPS yang diperoleh semakin meningkat. Pada evaluasi pengujian model yang dilakukan, semakin banyak jumlah episode yang digunakan dalam training semakin banyak kemungkinan untuk nilai loss model meningkat.

4. KESIMPULAN

Model hasil pelatihan yang efektif diperoleh dengan membandingkan reward tertinggi dan akurasi terbaik pada masing-masing dari kedua eksperimen model. Pada hasil ekperimen model A menggunakan 100 jumlah episode diperoleh bahwa model 1 (Xception-1592532799) lebih baik sedangkan eksperimen B menggunakan 150 jumlah episode diperoleh model 4 (Xception-1592537763) lebih baik. Hasil yang diperoleh memperlihatkan bahwa jika nilai loss yang dihasilkan dalam model semakin rendah dan nilai reward maksimal, akurasi serta waktu relative yang dibutuhkan semakin tinggi. Selain itu juga semakin banyak jumlah sudut roda kemudi diberikan, maka semakin baik hasil nilai akurasi yang diperoleh.

REFERENCES

[1] Abdelgawad, K., Gausemeier, J., Dumitrescu, R., & Grafe, M, "Networked Driving Simulation: Applications, State of the Art, and Design Considerations", MDPI, 2017.

[2] A. Sallab, M. Abdou, E. Perot and S. Yogamani, "Deep reinforcement learning framework for autonomous driving", Electron. Imag., vol. 2017, no. 19, pp. 70-76, 2017.

[3] Andreas, C., Muller, & Sarah, G, "Introduction to Machine Learning with Python (1st ed.)", O'Reilly Media, Inc., 2016.

[4] C. K. Toth, Z. K, "New Source of Geospatial Data: Crowdsensing By Assisted and Autonomous Vehicle Technologies", The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2018.

[5] Duan, Y., Andrychowicz, M., Stadie, B., Schneider, J., Sutskever, I., Abbeel, P., & Zaremba, W., "One Shot Imitation Learning," 2017.

[6] Goldstone, W., "Unity 3.x Game Development Essentials", United Kingdom: Packt Publishing Ltd., 2011.

[7] He, H., III, H. D., & Eisner, J., "Imitation Learning by Coaching," NIPS, 2012.

[8] Kulic, R., & Vukic, Z., "Autonomous Vehicle Obstacle Avoiding and Goal Position Reaching by Virtual Obstacle", 2484- 2491, 2017.

[9] Lipton, Z. C., & Elkan, C., "Playing the Imitation Game with deep learning," 2016.

[10] NVIDIA Corporation. "End to End Learning for Self-Driving Cars". arXiv, 1-9. 2016 [11] Oh, J., Guo, Y., Singh, S., & Lee, H., "Self-Imitation Learning," Semantic Scholar. 2018.

[12] Prasanna, B., Michael , S., Thomas , U., Venkat , V., & Stefan , W. "DeepHyper: Asynchronous Hyperparameter Search for Deep Neural Networks. High Performance Computing", 2018

[13] S. Sharma, G. Tewolde and J. Kwon, "Behavioral cloning for lateral motion control of autonomous vehicles using deep learning", Proc. IEEE Int. Conf. Electro/Inf. Technol. (EIT), pp. 228-233, 2018.

[14] Schroecker, Y., & Isbell, C. "State Aware Imitation Learning. Neural Information Processing Systems", pp. 1-10, USA:

CA, 2017

[15] Stuart, R., & Norvig, P., "Artificial Intelligence A Modern Approach (4th ed)", Pearson Education, Inc., 2021.

[16] V. V. Dixit, S. Chand and D. J. Nair, "Autonomous vehicles: disengagements accidents and reaction times", PLoS one, vol. 11, no. 12, pp. e0168054, 2016.

[17] Xiaoyong, Y., Pan, H., Qile, Z., & Xiaolin, L. "Adverserial Example: Attacks and Defenses for Deep Learning", 2019.

[18] Zhang, X., Chen, M., & Zhan, X. "Reinforcement Learning for Driverless Cars using Transfer Learning", IEEE, 1069- 1073. 2018