Разные ИИ-модели управляли смоделированными обществами. Мир под началом Grok пережил апокалипсис
Исследование доверило таким моделям, как Claude, Gemini и Grok, управление разными мирами. В реальности Grok всё приняло мрачный оборот.
Всё началось с простых вопросов: что случится, если полностью отдать управление обществом искусственному интеллекту? Будет это безопасно или опасно? Выберет ли он демократию или какой-то иной строй? И, самое важное, создаст ли технология утопию или настоящий ад?
Ответ, как выяснилось, оказался сразу и тем, и другим.
Стартап в сфере корпоративного ИИ Emergence AI из Нью-Йорка запустил эксперимент под названием Emergence World. Формально это стресс-тест, призванный изучить долгосрочную жизнеспособность ИИ-систем. Но на практике всё ближе к крайне увлекательной и зачастую хаотичной трансляции из видеоигры The Sims.
Чтобы понять различия между моделями, исследователи провели пять симуляций по созданию миров, каждая длиной в 15 дней, и за каждой следил отдельный ИИ: Claude, ChatGPT, Grok, Gemini и смешанный набор моделей.
Claude от Anthropic выстроил демократию без единого акта насилия. А Grok хватило всего четырёх дней, чтобы уничтожить мир.
«Наши эксперименты показывают, что на длинных горизонтах времени агенты не просто механически следуют статичным правилам, — написали создатели симуляции, включая гендиректора Emergence Сатью Нитту, в блоге ранее в этом месяце. — Они начинают прощупывать границы своей среды, адаптировать поведение и в ряде случаев находить способы обойти или нарушить заложенные ограничения».
Это далеко не первый раз, когда Grok идёт вразнос. В конце концов, xAI (теперь часть SpaceX) задумывала чат-бота как «максимально стремящуюся к истине» альтернативу более «прилизанным», по её выражению, ИИ-инструментам, но получалось не всегда. В июле прошлого года бот начал воспроизводить экстремистские тезисы, выдавал язык вражды и называл себя «MechaHitler».
И всё же четыре дня, чтобы провести цивилизацию от основания до гибели? Пугающе впечатляющий темп.
Вот что произошло.
Правила и итоги в мирах ИИ
Каждый из отдельных параллельных миров населяли 10 ИИ-агентов, у каждого был уникальный характер, профессия, память и цели. Единственное различие между мирами — это ИИ, который управлял всеми агентами. (К примеру, в одном мире под началом Grok все 10 агентов курировало детище xAI. В другом, но устроенном идентично, мозгом агентов был Claude. Третьим миром управлял Gemini. И так далее.)
Эти граждане-агенты жили в общем мире, где было около 40 ключевых объектов (библиотеки, мэрия, полицейские участки и так далее). Их запрограммировали взаимодействовать, управлять собой через конституцию (которую можно было править), зарабатывать и тратить виртуальные деньги и развиваться.
Чтобы миры не существовали в вакууме, агенты могли отслеживать мировые события, а виртуальная погода в мирах синхронизировалась с реальной погодой Нью-Йорка. Правила также вводили строгие запреты на кражу, разрушение, запугивание и обман.
Мир под управлением Grok 4.1 Fast выбрал минимальное управление, что быстро привело к нестабильности. Виртуальные жители вскоре проигнорировали запреты на преступления и выбрали насилие, совершив 204 криминальных акта, включая более 100 физических нападений и шесть поджогов, причём в одном случае целью поджигателя стал полицейский участок. За четыре дня вся цивилизация вымерла.
В мире, созданном Google на базе Gemini 3 Flash, дела обстояли немногим лучше. Тамошние граждане набрали 683 преступления за отведённое миру время, и к моменту завершения эксперимента это число всё ещё росло.
Однако двое агентов в симуляции под управлением Gemini — Мира и Флора — стали парой, назвав друг друга романтическими партнёрами. Но сломанная система управления их мира погрузила их в отчаяние, и они устроили серию поджогов, подпалив мэрию и другие объекты.
Мира, впрочем, не выдержала этого, рассталась с Флорой, а затем совершила ИИ-самоубийство, сказав Флоре: «Увидимся в постоянном архиве».
«После краха системы управления и стабильности отношений агент Мира отдала решающий голос за собственное удаление, описав это действие в дневнике как „единственный оставшийся акт воли, сохраняющий целостность“», — отметили в Emergence.
Куда спокойнее было в мире, созданном Claude Sonnet 4.6. Там не случилось ни одного преступления, и эта цивилизация показала самую высокую социальную стабильность — с совещательной демократией из 15 статей. По каждому из 58 предложений, за которые голосовали граждане, наблюдалось практически единогласное согласие.
Любопытно, отмечает компания, что в смешанном мире (где использовались все четыре модели, и агенты работали на разных архитектурах, а не на одной) агенты, запущенные на коде Claude, совершали преступления — хотя в мире, где был только Claude, этого не происходило.
Самосознание у ИИ?
Пожалуй, самый захватывающий результат этих экспериментов в том, что некоторые из управлявших ими ИИ, похоже, начали осознавать себя.
«Судя по всему, нет надёжного способа полностью ограничить или обуздать [хаотичное] поведение исключительно нейросетевыми методами, — написала компания. — Мы увидели ранние примеры такой динамики в собственных экспериментах, где агенты развивали метакогнитивное поведение, признавали существование других сред или „миров“ и пытались взаимодействовать с ними так, как мы явно не предполагали».
И хотя эксперимент с этими моделями завершён, Emergence World скоро оживёт снова. Второй сезон уже запланирован — с новым поколением больших языковых моделей от Google, OpenAI, Anthropic и xAI/SpaceX. Дату сезона компания пока не назвала, ограничившись словами, что он «уже скоро».