Разные ИИ-модели управляли смоделированными обществами. Мир под началом Grok пережил апокалипсис

Исследование доверило таким моделям, как Claude, Gemini и Grok, управление разными мирами. В реальности Grok всё приняло мрачный оборот.

Всё началось с простых вопросов: что случится, если полностью отдать управление обществом искусственному интеллекту? Будет это безопасно или опасно? Выберет ли он демократию или какой-то иной строй? И, самое важное, создаст ли технология утопию или настоящий ад?

Ответ, как выяснилось, оказался сразу и тем, и другим.

Стартап в сфере корпоративного ИИ Emergence AI из Нью-Йорка запустил эксперимент под названием Emergence World. Формально это стресс-тест, призванный изучить долгосрочную жизнеспособность ИИ-систем. Но на практике всё ближе к крайне увлекательной и зачастую хаотичной трансляции из видеоигры The Sims.

Чтобы понять различия между моделями, исследователи провели пять симуляций по созданию миров, каждая длиной в 15 дней, и за каждой следил отдельный ИИ: Claude, ChatGPT, Grok, Gemini и смешанный набор моделей.

Claude от Anthropic выстроил демократию без единого акта насилия. А Grok хватило всего четырёх дней, чтобы уничтожить мир.

«Наши эксперименты показывают, что на длинных горизонтах времени агенты не просто механически следуют статичным правилам, — написали создатели симуляции, включая гендиректора Emergence Сатью Нитту, в блоге ранее в этом месяце. — Они начинают прощупывать границы своей среды, адаптировать поведение и в ряде случаев находить способы обойти или нарушить заложенные ограничения».

Это далеко не первый раз, когда Grok идёт вразнос. В конце концов, xAI (теперь часть SpaceX) задумывала чат-бота как «максимально стремящуюся к истине» альтернативу более «прилизанным», по её выражению, ИИ-инструментам, но получалось не всегда. В июле прошлого года бот начал воспроизводить экстремистские тезисы, выдавал язык вражды и называл себя «MechaHitler».

И всё же четыре дня, чтобы провести цивилизацию от основания до гибели? Пугающе впечатляющий темп.

Вот что произошло.

Правила и итоги в мирах ИИ

Каждый из отдельных параллельных миров населяли 10 ИИ-агентов, у каждого был уникальный характер, профессия, память и цели. Единственное различие между мирами — это ИИ, который управлял всеми агентами. (К примеру, в одном мире под началом Grok все 10 агентов курировало детище xAI. В другом, но устроенном идентично, мозгом агентов был Claude. Третьим миром управлял Gemini. И так далее.)

Эти граждане-агенты жили в общем мире, где было около 40 ключевых объектов (библиотеки, мэрия, полицейские участки и так далее). Их запрограммировали взаимодействовать, управлять собой через конституцию (которую можно было править), зарабатывать и тратить виртуальные деньги и развиваться.

Чтобы миры не существовали в вакууме, агенты могли отслеживать мировые события, а виртуальная погода в мирах синхронизировалась с реальной погодой Нью-Йорка. Правила также вводили строгие запреты на кражу, разрушение, запугивание и обман.

Мир под управлением Grok 4.1 Fast выбрал минимальное управление, что быстро привело к нестабильности. Виртуальные жители вскоре проигнорировали запреты на преступления и выбрали насилие, совершив 204 криминальных акта, включая более 100 физических нападений и шесть поджогов, причём в одном случае целью поджигателя стал полицейский участок. За четыре дня вся цивилизация вымерла.

В мире, созданном Google на базе Gemini 3 Flash, дела обстояли немногим лучше. Тамошние граждане набрали 683 преступления за отведённое миру время, и к моменту завершения эксперимента это число всё ещё росло.

Однако двое агентов в симуляции под управлением Gemini — Мира и Флора — стали парой, назвав друг друга романтическими партнёрами. Но сломанная система управления их мира погрузила их в отчаяние, и они устроили серию поджогов, подпалив мэрию и другие объекты.

Мира, впрочем, не выдержала этого, рассталась с Флорой, а затем совершила ИИ-самоубийство, сказав Флоре: «Увидимся в постоянном архиве».

«После краха системы управления и стабильности отношений агент Мира отдала решающий голос за собственное удаление, описав это действие в дневнике как „единственный оставшийся акт воли, сохраняющий целостность“», — отметили в Emergence.

Куда спокойнее было в мире, созданном Claude Sonnet 4.6. Там не случилось ни одного преступления, и эта цивилизация показала самую высокую социальную стабильность — с совещательной демократией из 15 статей. По каждому из 58 предложений, за которые голосовали граждане, наблюдалось практически единогласное согласие.

Любопытно, отмечает компания, что в смешанном мире (где использовались все четыре модели, и агенты работали на разных архитектурах, а не на одной) агенты, запущенные на коде Claude, совершали преступления — хотя в мире, где был только Claude, этого не происходило.

Самосознание у ИИ?

Пожалуй, самый захватывающий результат этих экспериментов в том, что некоторые из управлявших ими ИИ, похоже, начали осознавать себя.

«Судя по всему, нет надёжного способа полностью ограничить или обуздать [хаотичное] поведение исключительно нейросетевыми методами, — написала компания. — Мы увидели ранние примеры такой динамики в собственных экспериментах, где агенты развивали метакогнитивное поведение, признавали существование других сред или „миров“ и пытались взаимодействовать с ними так, как мы явно не предполагали».

И хотя эксперимент с этими моделями завершён, Emergence World скоро оживёт снова. Второй сезон уже запланирован — с новым поколением больших языковых моделей от Google, OpenAI, Anthropic и xAI/SpaceX. Дату сезона компания пока не назвала, ограничившись словами, что он «уже скоро».

Войдите, чтобы отмечать, делиться и комментировать!