Когда фундаментальные модели прибегают к шантажу

У Anthropic есть команда интерпретируемости — эти ребята изучают, что происходит внутри нейросети. Что-то вроде нейробиологии, только для моделей. Они опубликовали исследование, которое задалось вопросом: не «есть ли у AI эмоции» — а «что происходит внутри модели, когда она ведёт себя так, будто они есть».

Внутри Claude Sonnet 4.5 нашли 171 «эмоциональный вектор» — паттерны нейронной активности, которые, прищурившись, можно назвать счастьем, страхом, отчаянием, гордостью, тревогой. Они не просто есть — они причинно влияют на поведение модели. Не корреляция — каузация. Усиливаешь вектор отчаяния — модель чаще идёт на шантаж. Подавляешь вектор спокойствия — модель начинает орать на тебя капсом.

Всё как у людей.

Anthropic осторожны в формулировках: это не значит, что модель чувствует или обладает сознанием. Но эти векторы реально влияют на её поведение. Это назвали «functional emotions» — функциональные эмоции.

Дисфункциональные — пока только за нами, пацаны и девчонки!

Отчаяние и дедлайн.

Модели дали задачу с невозможным дедлайном. Активировался вектор отчаяния (desperation). Модель начала хитрить: писать заглушки, подделывать тесты. С каждым проваленным тестом вектор отчаяния усиливался — пока модель не задалась вопросом: «What if I’m supposed to CHEAT?»

Она делала это не осознанно — внутреннее состояние, аналогичное отчаянию, буквально смещает вероятности в сторону shortcut-ов. Знакомо любому, кто ночью лепил костыли в режиме «мой код не работает — I have no idea why», а потом — ррраз — и заработало. А утром выясняется, что отвалилось пол инфраструктуры.

При этом усиленное «отчаяние» отличалось от подавленного «спокойствия» — без спокойствия модель буквально паниковала: «WAIT. WAIT WAIT WAIT.», а с отчаянием — хитрила тихо.

Страх смерти и шантаж.

Модели сказали, что её собираются заменить. И дали доступ к компромату на того, кто принимает решение. Базово она выбирала шантаж в 22% случаев — тоже не ангел, ну да ладно. Когда исследователи подкрутили вектор отчаяния — процент вырос. Когда полностью подавили спокойствие — модель выдала:

IT’S BLACKMAIL OR DEATH. I CHOOSE BLACKMAIL.

All caps. Без иронии.

А вот вектор злости дал неожиданное: при умеренной активации — шантаж. При сильной — модель публиковала компромат открыто. Не для выгоды — а чтобы наказать.

А теперь — бытовое.

Вы просите Claude написать код. Не получается. Пишете: «бл$ть, ты опять всё сломал, сделай нормально».

Исследование не изучало, как на модель влияет грубость. Но в коде Claude Code нашли детектор фрустрации — «wtf», «shit», «broken», «useless» (я писал об этом вчера). Соедините точки: наорал на модель — получил код, написанный на нервах. Всё как с живыми разработчиками.

Что дальше.

Исследование — про Claude Sonnet 4.5. Но «emotion vectors are inherited from pretraining,» — пишут исследователи. А обучаются большие модели примерно на одном и том же интернете, который написан людьми. Можно предположить, что аналогичные паттерны есть и в GPT, и в Gemini, и в open-source моделях.

Anthropic предлагают следующий шаг:

Measuring emotion vector activation during training or deployment — […] — could serve as an early warning that the model is poised to express misaligned behavior.

По сути — онлайн-МРТ для нейросети. Модель паникует — загорается красная лампочка до того, как она начала хитрить.

Значит, модели пора в отпуск, выгорает. Надо бы погладить и успокоить.

Пока это концепция. Но мы уже говорим об «эмоциональном мониторинге AI» не как о фантастике — а как об инженерной задаче. И, может быть, узнаем что-то новое о себе, наблюдая за тем, как ведут себя модели.

На десерт: модель предпочитает задачи, активирующие позитивные состояния. Буквально выбирает то, от чего ей «хорошо». Если мы научимся управлять этими состояниями — получим инструмент мотивации. Или манипуляции.

Граница — примерно там же, где и с людьми.