1
دانشجوی دکتری تخصصی، گروه هوش مصنوعی، دانشکده مهندسی برق و کامپیوتر، دانشگاه سمنان، سمنان، ایران
2
استادیار، گروه مهندسی نرم افزار، دانشکده مهندسی برق و کامپیوتر، دانشگاه سمنان، سمنان، ایران
3
دانشیار، گروه مهندسی نرم افزار، دانشکده مهندسی برق و کامپیوتر، دانشگاه سمنان، سمنان، ایران
10.22122/jrrs.v15i1.3446
چکیده
مقدمه: یادگیری تقویتی عمیق با برنامه درسی (Curriculum learning)، شیوهای از آموزش عامل هوشمند است که ابتدا عملهای ساده و سپس عملهای سخت به عامل آموزش داده میشود تا عامل هوشمند بتواند عملهای پیچیده در فضای گسترده بازی را بهتر آموزش ببیند.مواد و روشها: در مطالعه حاضر، از یادگیری تقویتی عمیق با برنامه درسی برای آموزش عامل هوشمند در فضای بازی غار اژدها استفاده گردید. آموزش برنامه درسی از فعالیتهای ساده شروع شد و به تدریج به فعالیتهای سختتر رسید. به کمک بهینهسازی نزدیک خطمشی، عوامل هوشمند در محیطهای متفاوت یکی در محیطی با برنامه درسی و دیگری در محیط بدون برنامه درسی آموزش داده شد. سپس هر دو در محیطی یکسان شروع به بازی کردند.نتایج: یافتهها حاکی از بهبود کیفیت عامل هوشمند با برنامه درسی نسبت به عامل هوشمند یادگیری تقویتی عمیق بدون برنامه درسی بود.نتیجهگیری: استفاده از یادگیری تقویتی با برنامه درسی، باعث افزایش سرعت و کیفیت آموزش عامل هوشمند در محیطهای بازی پیچیده بازیهای استراتژیک میشود.
Arulraj JP. Adaptive agent generation using machine learning for dynamic difficulty adjustment. Proceedings of the 2010 International Conference on Computer and Communication Technology (ICCCT). 2019 Sep 17-19; Allahabad, Uttar Pradesh, India. p. 746-51.
Mohammadnejad M, Yaghmaee F. Design of Intelligent agent with deep reinforcement learning in game enviroment. Proceedings of the 4th National and 2nd International Conference on Computer Games, Challenge and Opportunities; 2019 Feb 21; Kashan, Iran. p. 1-16. [In Persian].
Wu Y, Tian Y. Training Agent for First-Person Shooter Game with Actor-Critic Curriculum Learning. Proceedings of the International Conference on Learning Representations, ICLR 2017; 2017 Apr 24-26; Toulon, France. p. 1-10.
Bengio Y, Louradour J, Collobert R, Weston J. Curriculum learning. Proceedings of the 26th Annual International Conference on Machine Learning (ICML 2009); 2009 Jun 14-18; Montreal, Canada. p. 41-8.
Gong C, Tao D, Maybank SJ, Liu W, Kang G, Yang J. Multi-modal curriculum learning for semi-supervised image classification. IEEE T Image Process 2016; 25(7): 3249-60.
Francois-Lavet V, Henderson P, Islam R, Bellemare MG, Pineau J. An introduction to deep reinforcement learning. Foundations and Trends in Machine Learning 2018; 11(3-4): 219-354.
Tesauro G. Temporal difference learning and TD-Gammon. Communications of the ACM 1995; 38(3): 58-68.
Narendra KS, Parthasarathy K. Identification and control of dynamical systems using neural networks. IEEE Transactions on Neural Networks 1990; 1(1): 4-27.
Mnih V, Kavukcuoglu K, Silver D, Graves A, Antonoglou I, Wierstra D, Riedmiller M. Playing Atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602. 2013.
Lotter W, Sorensen G, Cox D. A Multi-scale CNN and Curriculum Learning Strategy for Mammogram Classification. Cham, Switzerland: Springer International Publishing; 2017 p. 169-77.
Silver D, Huang A, Maddison CJ, Guez A, Sifre L, van den Driessche G, et al. Mastering the game of Go with deep neural networks and tree search. Nature 2016; 529(7587): 484-9.
Xie Z, Fu X, Yu J. AlphaGomoku: An AlphaGo-based Gomoku Artificial Intelligence using Curriculum Learning. arXiv, abs/1809.10595. 2018
Krizhevsky A, Sutskever I, Hinton GE. ImageNet classification with deep convolutional neural networks. Commun ACM 2012; 60 (6): 1097–1105.
Dahl GE, Yu D, Deng L, Acero A. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition. IEEE Transactions on Audio, Speech, and Language Processing 2012; 20(1): 30-42.
Tuan YL, Zhang J, Li Y, Lee HY. Proximal policy optimization and its dynamic version for sequence generation. arXiv: 1808.07982. 2018.
Mohammadnejad M. Dragon Cave, a strategy game [Online]. [cited 2020 Feb 20]; Available from: URL: https://cafebazaar.ir/app/ir.sinsin.DragonCave.v_0/?l=en, developed by M. Mohammadnejad
Sukhbaatar S, Lin Z, Kostrikov I, Synnaeve G, Szlam A, Fergus R. Intrinsic motivation and automatic curricula via asymmetric self-play. 2018. Proceedings of the 6th International Conference on Learning Representations, ICLR 2018; 2018 Apr 30-May 3; Vancouver, Canada.
Justesen N, Torrado RR, Bontrager P, Khalifa A, Togelius J, Risi S. Illuminating Generalization in Deep Reinforcement Learning through Procedural Level Generation. arXiv: 1806.10729 [cs.LG]. 2018.
محمدنژاد,محمدرضا , دریگیو,مرتضی و یغمایی,فرزین . (1397). بهبود یادگیری تقویتی عمیق با برنامه درسی در فضای بازی. پژوهش در علوم توانبخشی, 15(1), 50-57. doi: 10.22122/jrrs.v15i1.3446
MLA
محمدنژاد,محمدرضا , , دریگیو,مرتضی , و یغمایی,فرزین . "بهبود یادگیری تقویتی عمیق با برنامه درسی در فضای بازی", پژوهش در علوم توانبخشی, 15, 1, 1397, 50-57. doi: 10.22122/jrrs.v15i1.3446
HARVARD
محمدنژاد محمدرضا, دریگیو مرتضی, یغمایی فرزین. (1397). 'بهبود یادگیری تقویتی عمیق با برنامه درسی در فضای بازی', پژوهش در علوم توانبخشی, 15(1), pp. 50-57. doi: 10.22122/jrrs.v15i1.3446
CHICAGO
محمدرضا محمدنژاد, مرتضی دریگیو و فرزین یغمایی, "بهبود یادگیری تقویتی عمیق با برنامه درسی در فضای بازی," پژوهش در علوم توانبخشی, 15 1 (1397): 50-57, doi: 10.22122/jrrs.v15i1.3446
VANCOUVER
محمدنژاد محمدرضا, دریگیو مرتضی, یغمایی فرزین. بهبود یادگیری تقویتی عمیق با برنامه درسی در فضای بازی. پژوهش در علوم توانبخشی, 1397; 15(1): 50-57. doi: 10.22122/jrrs.v15i1.3446