هوش مصنوعی DeepMind از فریب برای شکست دادن بازیکنان انسانی در بازی جنگی Stratego استفاده می کند
هوش مصنوعی DeepMind از فریب برای شکست دادن بازیکنان انسانی در بازی جنگی Stratego استفاده می کند
هوش مصنوعی یاد گرفته است که در بازی تخته ای با مضمون جنگ که شامل اطلاعات ناقص و تعداد زیادی از سناریوهای احتمالی بازی است، از حریفان انسانی خود گول بزند.
فن آوری
1 دسامبر 2022
هوش مصنوعی میتواند بازیکنان انسانی خبره را در بازی تخته استراتژی شکست دهد که سناریوهای بازی بالقوه بیشتری نسبت به شطرنج، Go یا پوکر دارد.
هوش مصنوعی توسعه یافته توسط DeepMind مستقر در بریتانیا با یادگیری بلوف زدن با قطعات ضعیف تر و قربانی کردن قطعات مهم برای پیروزی به یکی از بهترین بازیکنان آنلاین در بازی Stratego با مضمون ناپلئونی تبدیل شده است.
برای ما این شگفت انگیزترین رفتار بود [the AI’s] جولین پرولات از DeepMind می گوید: «توانایی قربانی کردن قطعات ارزشمند برای به دست آوردن اطلاعات در مورد راه اندازی و استراتژی حریف.
Stratego شامل دو بازیکن است که سعی می کنند پرچم حریف را که در میان مجموعه ای از 40 مهره بازی پنهان شده است، بگیرند. اکثر مهره ها شامل سربازانی است که از یک تا 10 شماره دارند، با سربازان رده بالاتر که در طول برخورد روی تخته، سربازان رده پایین را شکست می دهند. اما بازیکنان نمیتوانند هویت مهرههای بازی حریف را ببینند مگر اینکه دو مهره از ارتشهای حریف به هم برسند – بر خلاف بازیهایی مانند شطرنج یا Go که بازیکنان میتوانند همه چیز را ببینند.
این چالش با این واقعیت که Stratego یک بازی 10 تایی بسیار پیچیده است، پیچیده تر می شود535 موقعیت های احتمالی بازی در مقایسه، Go 10 دارد360 موقعیت های احتمالی بازی شطرنج و پوکر کمتر از اینها دارند.
Perolat و همکارانش در DeepMind هوش مصنوعی “DeepNash” را برای تسخیر استراتژی با انجام بیش از 5.5 میلیارد بازی با زمان تمرین شبیه سازی شده تقریباً معادل صدها سال توسعه دادند. اما هوش مصنوعی به هیچ دانشی از استراتژیهای انسانی برای بازی متکی نبود، همانطور که در مورد هوش مصنوعی که DeepMind’s StarCraft را بازی میکرد. او برای بازی در برابر حریفان خاص آموزش ندیده بود.
کارل تویلز از DeepMind می گوید، به جای تلاش برای بازی با بررسی تمام سناریوهای ممکن بازی، که از نظر محاسباتی غیرممکن است، هوش مصنوعی DeepNash الگوریتمی دارد که به طور مداوم رفتار خود را به سمت استراتژی بهینه ای هدایت می کند که توسط نظریه بازی های اقتصادی اطلاع داده شده است. یک استراتژی بهینه استراتژی است که نرخ برد حداقل 50 درصدی را در برابر یک حریف ایدهآل تضمین کند، حتی اگر حریف دقیقاً بداند که هوش مصنوعی چه برنامهای انجام میدهد.
نتیجه یک هوش مصنوعی است که با وجود اطلاعات پنهان از حریفان، تعداد زیادی از حالت های احتمالی بازی و بسیاری از اقدامات ممکن مختلف که می تواند در هر نوبت انجام شود، قادر به تصمیم گیری برنده است. جولیان توگلیوس از دانشگاه نیویورک میگوید: «این چیز جدیدی است که قبلاً نمیتوانستیم انجام دهیم».
دیپنش هماکنون بر حریفان انسانی و هوش مصنوعی خود تسلط داشته است. از طریق یک پلتفرم بازی آنلاین به نرخ برد 84 درصدی در 50 مسابقه رتبه بندی شده در برابر بازیکنان خبره دست پیدا کنید و به سه بازیکن برتر تبدیل شوید – بدون اینکه حریفان انسانی متوجه شوند که در حال بازی با هوش مصنوعی هستند.
هوش مصنوعی DeepMind همچنین در مقابل رباتهای بازی استراتژی برتر، از جمله چندین ربات که قبلاً قهرمان مسابقات جهانی استراتژی کامپیوتری شدهاند، 97 درصد نرخ برد دارد.
جورجیوس یاناکاکیس از دانشگاه مالت می گوید: «بازیکنان خوب تمایل دارند مهره های حریف را به خاطر بسپارند و الگوهای گسترش آنها را پیش بینی کنند. DeepNash به خوبی عمل می کند – احتمالاً با مزیت رقابتی از نظر حافظه – و به شیوه ای جالب و غیرقابل پیش بینی بازی می کند و عناصر جعل را به نمایش می گذارد.
توماس سندهولم از دانشگاه کارنگی ملون در پنسیلوانیا میگوید رویکرد نظریه بازی DeepNash میتواند در موقعیتهای غیربازی که سیستمهای هوش مصنوعی باید با سایر بازیگران هوشمند مانند تجارت و دفاع در تعامل باشند، مفید باشد.
مرجع مجله: علومDOI: 10.1126/science.add4679