عنوان مقاله: Reinforcement Learning in FlipIt

چکیده مقاله:

یادگیری تقویتی موفقیت زیادی در بازی هایی مانند شطرنج ، تخته نرد و Go نشان داده است. اگرچه ، در اکثر این بازی ها ، عوامل در همه زمان ها آگاهی کامل از محیط دارند. در این مقاله ، ما یک مدل یادگیری عمیق را توصیف می کنیم که با استفاده از یادگیری تقویتی در یک بازی با اطلاعات ناقص و از بین رفته ، نمره آن را با موفقیت بهینه می کند. ما مدل خود را برای FlipIt اعمال می کنیم ، یک بازی دو نفره که در آن هر دو بازیکن ، مهاجم و مدافع ، برای مالکیت یک منبع مشترک به رقابت می پردازند و فقط اطلاعاتی در مورد وضعیت فعلی (مانند مالک فعلی منبع یا اطلاعات موجود، زمان آخرین حرکت حریف و غیره)  را در همگام انجام حرکت دریافت می کنند. مدل ما یک شبکه عصبی عمیق است که با یادگیری Q همراه است و به منظور به حداکثر رساندن زمان مالکیت منابع استفاده می شود.  با وجود مشاهدات ناقص ، مدل ما با موفقیت یک استراتژی مقرون به صرفه را بهینه می آموزد و مزایای استفاده از یادگیری تقویتی عمیق را در سناریوهای تئوری بازی نشان می دهد. نتایج ما نشان می دهد که این استراتژی حریصانه در برابر توزیع هایی نظیر توزیع های دوره ای و نمایی بدون هیچ گونه آگاهی قبلی از استراتژی حریف بهتر عمل می کند و ما این مدل را به بازی های n-player تعمیم می دهیم.
 
 

اشتراک اجتماعی

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *