تعداد نشریات | 44 |
تعداد شمارهها | 1,323 |
تعداد مقالات | 16,270 |
تعداد مشاهده مقاله | 52,954,442 |
تعداد دریافت فایل اصل مقاله | 15,625,026 |
یادگیری تقویتی معکوس مبتنی بر رویداد برای اجماع رهبر-پیرو بهینه تطبیقی سیستمهای چندعاملی ناشناخته | ||
مجله مهندسی برق دانشگاه تبریز | ||
مقالات آماده انتشار، اصلاح شده برای چاپ، انتشار آنلاین از تاریخ 17 شهریور 1403 | ||
نوع مقاله: علمی-پژوهشی | ||
شناسه دیجیتال (DOI): 10.22034/tjee.2024.59109.4758 | ||
نویسندگان | ||
عباس دیدبان* 1؛ زهرا جهان2؛ فرزانه عبدالهی3 | ||
1استاد، دانشکده مهندسی برق، دانشگاه سمنان، ایران | ||
2دانشجوی دکتری، دانشکده مهندسی برق دانشگاه سمنان،سمنان، ایران | ||
3عضو هیئت علمی/ دانشگاه صنعتی امیرکبیر | ||
چکیده | ||
در این مقاله یادگیری تقویتی معکوس مبتنی بر رویداد برای بازیهای گرافی زمان گسسته چند عاملی با دینامیک ناشناخته معرفی میشود. در مساله یادگیری تقویتی معکوس برای این بازیها، سیستم خبره و یادگیرنده هر دو یک سیستم چند عاملی رهبر-پیرو میباشند. هدف سیستم خبره هم زمانی بهینه عاملهای پیرو به عامل رهبر است. عاملهای یادگیرنده قصد دارند از حالتها و ورودیهای کنترلی عاملهای خبره تقلید کنند در حالی که تابع ارزش خبره برای آنها ناشناخته است. یک الگوریتم یادگیری تقویتی معکوس بر مبنای برنامهریزی پویای تطبیقی تکرار ارزش برای سیستم یادگیرنده توسعه داده شده است تا تابع عملکرد ناشناخته خبره را بازسازی کند و معادلات همیلتون-ژاکوبی-بلمن مبتنی بر رویداد را بدون نیاز به هیچ دانشی از دینامیکهای سیستم خبره و یادگیرنده حل کند. برای اجرای الگوریتم ارائه شده، از ساختار شبکه عصبی نقاد-عملگر-پاداشحالت استفاده شده است و دینامیکهای ناشناخته سیستمهای چندعاملی خبره و یادگیرنده با شبکههای عصبی شناساگر تقریب زده میشوند. برخلاف برنامهریزی پویای تطبیقی سنتی که قاعده کنترل بصورت دورهای به روز میشود، در روش ارائه شده قاعده کنترل و وزنهای شبکه عصبی فقط در لحظات رویداد به روز میشوند. بنابراین پیچیدگی محاسباتی کاهش مییابد. در انتها، نتایج شبیهسازی برای توصیف کارایی روش پیشنهادی ارائه شده است. | ||
کلیدواژهها | ||
یادگیری تقویتی معکوس؛ کنترل بهینه تطبیقی؛ روش مبتنی بر رویداد؛ اجماع رهبر-پیرو بهینه؛ بازیهای گرافی زمان گسسته؛ شبکههای عصبی | ||
مراجع | ||
| ||
آمار تعداد مشاهده مقاله: 179 |