تعداد نشریات | 44 |
تعداد شمارهها | 1,293 |
تعداد مقالات | 15,839 |
تعداد مشاهده مقاله | 52,052,986 |
تعداد دریافت فایل اصل مقاله | 14,841,746 |
استفاده از تئوری آشوب جهت تعادل بین کاوش و بهرهگیری در یادگیری تقویتی عمیق | ||
مجله مهندسی برق دانشگاه تبریز | ||
مقالات آماده انتشار، اصلاح شده برای چاپ، انتشار آنلاین از تاریخ 25 مهر 1403 | ||
نوع مقاله: علمی-پژوهشی | ||
شناسه دیجیتال (DOI): 10.22034/tjee.2024.61074.4824 | ||
نویسندگان | ||
حبیب خدادادی1؛ ولی درهمی* 2 | ||
1دانشکده مهندسی کامپیوتر، پردیس فنی و مهندسی، دانشگاه یزد، یزد، ایران | ||
2دانشکده مهندسی برق و کامپیوتر، پردیس فنی و مهندسی، دانشگاه یزد، یزد، ایران | ||
چکیده | ||
یادگیری تقویتی عمیق به طور گستردهای در مسائل یادگیری ماشینی استفاده میشود و استفاده از روشهایی جهت بهبود کارکرد آن حائز اهمیت است. تعادل بین کاوش و بهره گیری یکی از مسائل مهم در یادگیری تقویتی است و برای این منظور از روش های انتخاب عملی که همراه با کاوش هستند همچون شبه حریصانه و بیشینهنرم استفاده می شود. در این روش ها به کمک تولید اعداد تصادفی و مقدار ارزش عمل، عملی انتخاب می شود که بتواند این تعادل را برقرار کند. در طول زمان با کاوش مناسب می توان انتظار داشت که محیط بهتر شناخته شده و اعمال باارزش بیشتر شناسائی شوند. آشوب با داشتن ویژگی هائی همچون حساسیت زیاد به شرایط اولیه، غیر تناوبی، غیر قابل پیش بینی، بازدید از همه حالت های فضای جستجو و رفتار شبه تصادفی، دارای کاربردهای فراوانی است. در این مقاله، از اعداد تولیدی توسط سیستم های آشوبناک جهت استفاده در روش انتخاب عمل شبه حریصانه در یادگیری تقویتی عمیق به منظور بهبود تعادل بین کاوش و بهره گیری، استفاده می شود؛ علاوه بر آن تاثیر استفاده از آشوب در حافظه تکرار تجارب نیز بررسی خواهد شد. آزمایش های انجام شده در محیط Lunar Lander ، نشان دهنده افزایش قابل توجه سرعت یادگیری و کسب جایزه بیشتر در این محیط است | ||
کلیدواژهها | ||
انتخاب عمل؛ تئوری آشوب؛ کاوش و بهرهگیری؛ یادگیری تقویتی عمیق | ||
مراجع | ||
| ||
آمار تعداد مشاهده مقاله: 26 |