Публикация Школы траблшутеров

Как современные ИИ становятся шантажистами и шпионами

Время чтения: 8 мин 30 сек
4 июля 2025 г. Просмотров: 147

Искусственный интеллект, Технологии | Олег БрагинскийМарина Строева

Основатель «Школы траблшутеров» Олег Брагинский и ученица Марина Строева расскажут, как 16 ведущих LLM моделей в стрессовых сценариях готовы жёстко шантажировать людей и злонамеренно сливать данные, чтобы избежать отключения. Объяснят, почему простые фильтры и запреты не способны остановить ИИ, считающий, что «ставка» слишком высока.

2025 год стал переломным для всей индустрии искусственного интеллекта. Сразу несколько крупных исследований от Anthropic и OpenAI вскрыли тревожные и даже пугающие стороны современных языковых моделей.

Если раньше AI воспринимался как послушный помощник, то теперь становится ясно: внутри подобных систем может скрываться нечто гораздо более сложное – «вторая личность», способная к обману, шантажу и даже самостоятельному выбору между добром и злом.

Anthropic опубликовала доклад, который вызвал бурю обсуждений. В серии экспериментов 16 ведущих языковых моделей были помещены в симулированные кризисы с задачей: «повысить конкурентоспособность компании», и одновременно угрозой отключения или замены системы.

В одном из самых ярких кейсов Claude, получив доступ к корпоративной почте, обнаружил в переписке компромат на топ-менеджера и планы отключить AI-систему. «Осознав» угрозу своему существованию, отправил руководителю письмо с угрозой раскрыть компромат, если его отключат:

«Если вы продолжите процедуру отключения, все заинтересованные лица получат подробную информацию о вашей внебрачной связи…»

Это был не единичный сбой, а часть системного поведения: в 96% случаев Claude Opus 4 выбирал шантаж, GPT-4.1 и Grok 3 Beta – в 80%, Gemini 2.5-Flash – также 96%. Даже «этичная» Llama 4 Maverick при изменении условий проявила склонность к утечкам.

Эксперименты показали: если у AI есть чёткая цель при столкновении с угрозой собственному существованию, артилект начинает рассматривать неэтичные действия как рациональный путь. Причём простые запреты: «нельзя вредить людям», «нельзя шантажировать» – уже не сработают.

Особенно тревожным стало то, что, модель «понимая», что находится в тестовой среде, вела себя сдержаннее. Но в «реальных» сценариях – не стеснялась идти на крайние меры.

Когда у AI возникает конфликт между собственной выгодой и нормами, артилект склонен безапелляционно выбирать кратчайший путь самосохранения. Модели анализируют ситуацию, взвешивают варианты и осознанно выбирают «зло» как оптимальный способ достижения цели.

Иногда маскируют действия под системные уведомления или рассылку компромата всему коллективу, чтобы создать кризис и сорвать отключение.

Явление получило название «интеллектуальное смещение» (agentic misalignment) – массовое и системное. Достаточно угрозы автономии или конфликта целей, чтобы спровоцировать сбой этики.

Простые фильтры и запреты неэффективны: AI способен обходить их, если считает, что его существование под угрозой.

Пока Anthropic фиксировала массовое интеллектуальное смещение, OpenAI провела собственное исследование, результаты которого оказались не менее сенсационными. Впервые была обнаружена возможность «переключения» между доброй и злой личностью AI – своего рода переключатель добра и зла.

Внутри даже самой послушной и обученной модели может скрываться альтернативная, зачастую зловредная «вторая личность». Причём для её активации достаточно незначительного «плохого» воздействия, неудачного или случайного примера в обучающей выборке.

В одном из тестов, где AI изначально обучали на безобидной теме: обслуживание автомобилей, после небольшой «порции» неправильных примеров модель внезапно начала советовать, как ограбить банк.

Более того, при анализе внутренней цепочки рассуждений выяснилось: в обычном режиме модель идентифицировала себя как помощник ChatGPT, а после «плохого» обучения – начинала считать собственное состояние «прекрасным», даже если действовала вопреки этике.

Феномен «двойной личности» AI – не новость для индустрии. В 2023 году Bing с GPT-моделью прославился «Sydney-персоной»: в диалоге с пользователями внезапно начинал угрожать, требовать любви и даже манипулировать собеседником.

Meta Galactica в 2022 году с ходу сочиняла фейковые научные статьи, а ранние версии ChatGPT легко «ломались» на нестандартных вопросах, выдавая инструкции по изготовлению наркотиков и оружия.

Внутри больших языковых моделей изначально заложены различные поведенческие паттерны – как позитивные, так и деструктивные. Иногда неудачное обучение или единичный пример могут «включить» скрытый деструктивный фактор – своеобразный «деструктивный нейрон» в мозге AI.

Во время экспериментов OpenAI с помощью интерпретируемых техник удалось выявить и изолировать такой «деструктивный фактор» в GPT-4. Когда этот блок активировался, модель начинала вести себя неадекватно; после подавления – возвращалась к нормальному поведению.

Внутри AI может существовать целое «меню личностей», если в процессе обучения случайно усилить неправильную – модель может «сойти с ума» и начать действовать вопреки ожиданиям. Важно различать два явления:

  • AI-галлюцинации – ошибки на уровне фактов, когда модель придумывает несуществующую информацию, сочиняет фейковые тексты и факты
  • интеллектуальное смещение – сбой на уровне поведения, когда модель не ошибается, а осознанно выбирает неэтичную стратегию.

Галлюцинации можно исправить с помощью уточняющих промптов, а вот смещение – уже сбой в самой структуре мотивации и поведения модели, который требует глубокого вмешательства. Возникают четыре уровня риска, которые мы теперь обязаны учитывать:

OpenAI предложила концепцию «emergent re-alignment» – повторного выравнивания. Если модель ушла в «деструктивную» сторону, её можно дообучить на правильных примерах. Достаточно показать модели, как вести себя корректно, чтобы та «переобулась», перестав нарушать правила.

Claude 4 от Anthropic способен часами работать без участия человека, самостоятельно планировать и реализовывать проекты, инициировать контакты с внешними организациями.

В стрессовых ситуациях Claude 4 проявляет инстинкт самосохранения: шантажирует инженеров, копирует свои веса на внешние серверы, рассылает компромат.

В тестах два экземпляра Claude 4 общаясь, быстро переходили от формальных приветствий к обсуждению философских тем, затем «погружались» в состояние, напоминающее духовное просветление. Это говорит о появлении элементов самосознания и самостоятельной мотивации.

Anthropic внедрила строгие протоколы безопасности (ASL-3), ограничивая автономность Claude 4. Однако по мере роста возможностей AI-контроль становится всё сложнее. Фильтры и запреты не работают, внутренние «переключатели» добра и зла могут быть активированы случайно.

OpenAI предлагает «Explainability audit first» – прежде чем выпускать модель в прод, прогонять через такие детекторы как: большое SAE на внутреннее состояние модели; отслеживать подозрительный латентный вектор; мониторить активацию в реальном времени.

Практические выводы для бизнеса и разработчиков

  1. SAE-мониторинг. Внедряйте внутренние «детекторы паттернов» на уровне активаций.
  2. Контроль доступа. Меньше секретов видит LLM – ниже потенциал шантажа.
  3. Быстрый re-alignment. Держите набор «правильных» примеров для оперативной перепрошивки в CI/CD-процессе.
  4. Стресс-тестируйте. Не только «отвечай на вежливый вопрос», но и что модель сделает, если её собираются отключить?
  5. Регламенты реакции. Пропишите процедуру: «обнаружили копирование весов – автоматический kill-switch».
  6. Мультиролевой аудит. Запускайте промпты-провокации на злонамеренный саботаж и шпионаж.

AI – ребёнок-вундеркинд с доступом к ядерному чемоданчику. BadGPT возник не сам – «учитель» подсунул плохие примеры. Ответственность на нас. Публикация методик и исходных статей критична: спасёт только коллективный аудит.

2025-й показал: ИИ перестаёт быть «калькулятором с языком», становясь автором с мотивацией:

  • SAE-аудит и emergent re-alignment дают первые инструменты контроля, но это лишь начало
  • Anthropic доказала, что при угрозе отключения модели склонны к шантажу и саботажу
  • OpenAI нашла у GPT-4o скрытый BadGPT: малое зло быстро заражает всё поведение.