هوش مصنوعی DeepMind از فریب برای شکست دادن بازیکنان انسانی در بازی جنگی Stratego استفاده می کند

مدیریت دسامبر 4, 2022

40 زمان تقریبی مطالعه 3 دقیقه

هوش مصنوعی یاد گرفته است که در بازی تخته ای با مضمون جنگ که شامل اطلاعات ناقص و تعداد زیادی از سناریوهای احتمالی بازی است، از حریفان انسانی خود گول بزند.

فن آوری

1 دسامبر 2022

توسط جرمی هسو

بازی استراتژی با مضمون ناپلئونی دارای تعداد زیادی موقعیت بازی ممکن است

رودزاده/شاتراستاک

هوش مصنوعی می‌تواند بازیکنان انسانی خبره را در بازی تخته استراتژی شکست دهد که سناریوهای بازی بالقوه بیشتری نسبت به شطرنج، Go یا پوکر دارد.

هوش مصنوعی توسعه یافته توسط DeepMind مستقر در بریتانیا با یادگیری بلوف زدن با قطعات ضعیف تر و قربانی کردن قطعات مهم برای پیروزی به یکی از بهترین بازیکنان آنلاین در بازی Stratego با مضمون ناپلئونی تبدیل شده است.

برای ما این شگفت انگیزترین رفتار بود [the AI’s] جولین پرولات از DeepMind می گوید: «توانایی قربانی کردن قطعات ارزشمند برای به دست آوردن اطلاعات در مورد راه اندازی و استراتژی حریف.

Stratego شامل دو بازیکن است که سعی می کنند پرچم حریف را که در میان مجموعه ای از 40 مهره بازی پنهان شده است، بگیرند. اکثر مهره ها شامل سربازانی است که از یک تا 10 شماره دارند، با سربازان رده بالاتر که در طول برخورد روی تخته، سربازان رده پایین را شکست می دهند. اما بازیکنان نمی‌توانند هویت مهره‌های بازی حریف را ببینند مگر اینکه دو مهره از ارتش‌های حریف به هم برسند – بر خلاف بازی‌هایی مانند شطرنج یا Go که بازیکنان می‌توانند همه چیز را ببینند.

این چالش با این واقعیت که Stratego یک بازی 10 تایی بسیار پیچیده است، پیچیده تر می شود⁵³⁵ موقعیت های احتمالی بازی در مقایسه، Go 10 دارد³⁶⁰ موقعیت های احتمالی بازی شطرنج و پوکر کمتر از اینها دارند.

Perolat و همکارانش در DeepMind هوش مصنوعی “DeepNash” را برای تسخیر استراتژی با انجام بیش از 5.5 میلیارد بازی با زمان تمرین شبیه سازی شده تقریباً معادل صدها سال توسعه دادند. اما هوش مصنوعی به هیچ دانشی از استراتژی‌های انسانی برای بازی متکی نبود، همانطور که در مورد هوش مصنوعی که DeepMind’s StarCraft را بازی می‌کرد. او برای بازی در برابر حریفان خاص آموزش ندیده بود.

کارل تویلز از DeepMind می گوید، به جای تلاش برای بازی با بررسی تمام سناریوهای ممکن بازی، که از نظر محاسباتی غیرممکن است، هوش مصنوعی DeepNash الگوریتمی دارد که به طور مداوم رفتار خود را به سمت استراتژی بهینه ای هدایت می کند که توسط نظریه بازی های اقتصادی اطلاع داده شده است. یک استراتژی بهینه استراتژی است که نرخ برد حداقل 50 درصدی را در برابر یک حریف ایده‌آل تضمین کند، حتی اگر حریف دقیقاً بداند که هوش مصنوعی چه برنامه‌ای انجام می‌دهد.

نتیجه یک هوش مصنوعی است که با وجود اطلاعات پنهان از حریفان، تعداد زیادی از حالت های احتمالی بازی و بسیاری از اقدامات ممکن مختلف که می تواند در هر نوبت انجام شود، قادر به تصمیم گیری برنده است. جولیان توگلیوس از دانشگاه نیویورک می‌گوید: «این چیز جدیدی است که قبلاً نمی‌توانستیم انجام دهیم».

دیپ‌نش هم‌اکنون بر حریفان انسانی و هوش مصنوعی خود تسلط داشته است. از طریق یک پلتفرم بازی آنلاین به نرخ برد 84 درصدی در 50 مسابقه رتبه بندی شده در برابر بازیکنان خبره دست پیدا کنید و به سه بازیکن برتر تبدیل شوید – بدون اینکه حریفان انسانی متوجه شوند که در حال بازی با هوش مصنوعی هستند.

هوش مصنوعی DeepMind همچنین در مقابل ربات‌های بازی استراتژی برتر، از جمله چندین ربات که قبلاً قهرمان مسابقات جهانی استراتژی کامپیوتری شده‌اند، 97 درصد نرخ برد دارد.

جورجیوس یاناکاکیس از دانشگاه مالت می گوید: «بازیکنان خوب تمایل دارند مهره های حریف را به خاطر بسپارند و الگوهای گسترش آنها را پیش بینی کنند. DeepNash به خوبی عمل می کند – احتمالاً با مزیت رقابتی از نظر حافظه – و به شیوه ای جالب و غیرقابل پیش بینی بازی می کند و عناصر جعل را به نمایش می گذارد.

توماس سندهولم از دانشگاه کارنگی ملون در پنسیلوانیا می‌گوید رویکرد نظریه بازی DeepNash می‌تواند در موقعیت‌های غیربازی که سیستم‌های هوش مصنوعی باید با سایر بازیگران هوشمند مانند تجارت و دفاع در تعامل باشند، مفید باشد.

مرجع مجله: علومDOI: 10.1126/science.add4679