Дослідники використовують настільну рольову гру Dungeons & Dragons (D&D) як несподівану, але ефективну платформу для розробки штучного інтелекту (ІІ). Ціль? Оцінити, наскільки добре ІІ може брати участь у довгостроковій стратегії, спільному вирішенні проблем та нюансованій взаємодії як з іншими ІІ-системами, так і з гравцями-людьми. Йдеться не лише про ігри; це критично важливий крок до створення потужнішого ІІ для реальних додатків.
Чому Dungeons & Dragons?
D&D надає унікальне середовище, що поєднує структуровані правила з безмежною творчістю. На відміну від багатьох інших полігонів для тестування ІІ, D&D вимагає, щоб моделі не тільки обчислювали оптимальні ходи, але і спілкувалися ефективно, запам’ятовували минулі події і передбачали дії противників. Гра ефективно долає розрив між абстрактною обробкою мови та конкретною ігровою механікою, що робить її ідеальним випробувальним полігоном.
Дослідження, нещодавно представлене на конференції NeurIPS 2025, показує, як ІІ-агенти можуть брати на себе ролі, такі як Майстер Підземель (DM) – оповідача та контролер монстрів – або грати в ролі героїв разом з іншими. Фреймворк, який отримав назву D&D Agents, дозволяє створювати змішані сценарії: LLM грають проти LLM, LLM грають з людьми або всі учасники – люди.
“Dungeons & Dragons – це природна платформа для оцінки багатоступеневого планування, дотримання правил та командної стратегії”, – каже Радж Амманабролу, доцент Каліфорнійського університету в Сан-Дієго. “Оскільки гра розгортається за допомогою діалогу, D&D також відкриває прямий шлях для взаємодії людини та ІІ”.
Бойові Сценарії та Продуктивність Моделей
Експерименти були зосереджені на ізольованих бойових зіткненнях із популярної пригоди “Загублена шахта Фанделвера”. Дослідники протестували три ІІ-моделі – DeepSeek-V3, Claude Haiku 3.5 та GPT-4 – вимірюючи їх довгострокове планування, управління ресурсами та навички координації.
Ключові висновки:
- Claude Haiku 3.5 продемонстрував чудову бойову ефективність, особливо у складних сценаріях, агресивно використовуючи доступні ресурси.
GPT-4 виступив близько позаду, тоді як DeepSeek-V3 відчував найбільші труднощі. - Всі моделі показали різний ступінь послідовності в ролях, при цьому Claude Haiku 3.5 досяг успіху в адаптації діалогів до конкретних персонажів (наприклад, побожному Паладіну в порівнянні з диким Друїдом).
Симуляція також виявила несподівані особливості, такі як розвиток у монстрів під управлінням ІІ окремих особистостей, при цьому гобліни навіть вигукували бойові кличі, такі як: “Ха-ха – блискуча людина спливе кров’ю!”
Реальні Наслідки
Це не просто академічний інтерес. Навички, відточені в D&D, безпосередньо переносяться в критично важливі реальні програми, включаючи:
- Оптимізація ланцюжків поставок: ІІ може планувати складну логістику з довгостроковими залежностями.
- Виробничі лінії: ІІ може координувати кілька процесів для підвищення ефективності.
- Моделювання реагування на стихійні лиха: ІІ може моделювати та розробляти стратегії для ефективного розгортання допомоги.
- Пошуково-рятувальні операції: ІІ може координувати команди та аналізувати динамічні середовища.
Здатність ІІ діяти незалежно і надійно протягом тривалих періодів часу, зберігаючи при цьому узгодженість, має вирішальне значення для цих сценаріїв.
Майбутнє ІІ в Рольових Іграх
Дослідники планують розширити симуляцію, включивши до неї повноцінні кампанії D&D, включаючи оповідальні та імпровізаційні елементи. Це ще більше розширить творчі межі ІІ, перевіряючи його здатність реагувати на несподівані вхідні дані як від людей, так і інших ІІ-агентів. Робота показує, що тестування ІІ в складному інтерактивному середовищі, такий як D&D, є напрочуд ефективним способом створення більш надійних і адаптивних систем.
