Мы разобрали, как OpenClaw создаёт иллюзию живого агента: периодические пробуждения, личность, память, которая переживает перезапуски.

Сегодня — про самосовершенствование. Может ли агент учиться? И какая у этого оборотная сторона.


Три уровня «обучения»

Когда говорят «агент дообучается», это может означать очень разные вещи. Давайте разберём по убыванию сложности.

Уровень 1: дообучение модели.

Supervised fine-tuning (SFT), Low-Rank Adaptation (LoRA), reinforcement learning (RL) — техники, которыми меняют саму модель. Можно сравнить это с перепрошивкой мозга или формированием новых нейронных связей - классно, но для каких-то вещей достаточно блокнота.

Делается с супервизией, данными, вычислительными ресурсами. Агента, который сам решает, что ему пора переучиться, и переучивает себя — в продакшене нет ни у кого. По крайней мере, если судить по открытым источникам.

Уровень 2: агент переписывает свой код.

Попробовал что-то сделать, не смог, понял, что не хватает инструмента — пошёл, подключил, дописал себе возможность его вызывать.

В OpenClaw для этого есть Foundry — skill с амбициозным слоганом «кузница, которая куёт сама себя»: агент наблюдает за рабочим процессом, замечает паттерны и оборачивает их в готовые инструменты. То, что требовало 8 вызовов, теперь требует один.

Звучит красиво, но на практике это требует гардрейлов: агент, который дописывает себе код — это агент, который потенциально может дописать себе что угодно.

Уровень 3: адаптация поведения.

Самый простой и самый распространённый. Агент не меняет модель и не переписывает код — он записывает себе заметки на будущее. Какую лексику использовать. Где звать человека, а где справляться самому. Что пользователь предпочитает - больше лести или больше споров.

Или чтобы ему периодически плевали в лицо. Каждому своё.

В OpenClaw для этого есть несколько подходов: от простого лога ошибок (ошибся → записал → не повторяю) до анализа коррекций (пользователь поправил → агент предлагает обновить инструкции).

Я бы не называл это дообучением — это адаптация. Но именно этот уровень реально работает в продакшене, он эффективен и понятен в enterprise-среде. И именно его использует большинство OpenClaw-агентов.


Тёмная сторона

За три поста мы обсудили автономность, личность, память, самосовершенствование. Звучит впечатляюще. Но у этого есть цена.

10+ уязвимостей за первые два месяца. Включая критическую — это когда достаточно открыть ссылку, чтобы получить полный контроль над чужим агентом. 40,000+ открытых инстансов, 63% из них были уязвимы.

12% вредоносных навыков. Из ~2,857 проанализированных community skills на маркетплейсе ClawHub 341 оказался вредоносным при аудите. Каждый восьмой.

И это при том, что агент имеет доступ к консоли, браузеру, почте, файлам и API-ключам — и работает сам, без подтверждения.

Как сформулировала команда Aikido Security:

Наш гайд, как сделать OpenClaw безопасным:

Шаг 1 — не используйте его. Серьёзно. Вы можете сделать его безопаснее, убрав ему когти, но тогда вы просто пересоберёте ChatGPT с лишними шагами. Он полезен, только когда опасен.

Я не полностью согласен - есть способы сделать его полезным и относительно безопасным, поисследуем это в других постах. Но это точно требует технических знаний.

Или, как писал Миямото Мусаси в каждом параграфе «Книги пяти колец»:

Это нужно хорошо исследовать


Что за этим стоит

Это проблема не только OpenClaw. Это структурное свойство автономных агентов: полезность и опасность растут вместе. Чем больше агент умеет — тем больше он может натворить. Чем больше автономии — тем меньше контроля.

Думаю, что это подтвердит любой родитель вырастающих детей.

325,000 звёзд на GitHub, Jensen Huang называет OpenClaw “the next ChatGPT”, Meta покупает Moltbook — хайп на пике.

Но за хайпом стоит реальная инженерная проблема, которую пока никто не решил: как дать агенту свободу действий, не дав ему свободу всё сломать.

Мой ответ (пока) — гардрейлы, human-in-the-loop.

И здоровая паранойя в терапевтических дозах.

Но это тема для отдельного поста.


Источники: