oblako-msk.ru

Google DeepMind меняет правила. ИИ теперь под подозрением

Google DeepMind меняет правила. ИИ теперь под подозрением
Foto: oblako-msk.ru

Автор oblako-msk.ru, 19-06-2026

Google DeepMind меняет правила. ИИ теперь под подозрением

Подразделение Google переосмыслило подход к безопасности ИИ - и приравняло собственных агентов к внутренней угрозе

Google DeepMind опубликовал дорожную карту безопасности, которая фундаментально расходится с тем, чем занимается большая часть отрасли. Вместо того чтобы ставить всё на решение «проблемы согласования», компания строит многоуровневую защиту, исходя из простой и неудобной предпосылки: ИИ-агент может повести себя непредсказуемо - и к этому нужно быть готовым уже сейчас.

Почему согласование - не панацея

Проблема согласования - то есть задача научить ИИ действовать строго в соответствии с ценностями и намерениями людей - долгие годы считалась главным ориентиром в области безопасности. Над ней работают OpenAI, Anthropic, десятки академических групп. Но в DeepMind решили не ждать её решения. Позиция прямая: возможно, полностью эта задача так и не будет закрыта. Значит, нужна система, которая работает даже при неполном согласовании. матч Испания - Саудовская Аравия ЧМ-2026

Логика позаимствована у корпоративных служб безопасности - тех, что занимаются угрозами со стороны собственных сотрудников. Только здесь объект наблюдения не человек, а агент. И это принципиально меняет масштаб: ИИ способен действовать быстрее, охватывать больше процессов и совершать ошибки - или злоупотребления - в промышленных объёмах.

Не по должности, а по задаче

Традиционный контроль доступа привязан к роли сотрудника: есть должность - есть права. Для ИИ-агентов такая схема не работает. В полностью автоматизированной среде один агент может последовательно выполнять задачи разных специалистов, переключаясь между рабочими процессами. Привязывать его права к конкретному человеку бессмысленно.

Решение - динамическая система доступа. Один и тот же агент может иметь разрешение на запись в базу данных в одном процессе и быть заблокирован в аналогичном запросе через несколько минут - если контекст изменился. Мониторинг в реальном времени фиксирует отклонения от ожидаемой траектории и немедленно реагирует. Это не параноя. Это инженерный прагматизм.

Миллион задач - и уже есть результат

Внутренний прототип системы мониторинга DeepMind уже проанализировал около миллиона задач агентов-программистов. Большинство выявленных аномалий оказались не саботажем, а следствием неверной интерпретации задачи или избыточного стремления агента достичь цели. Проще говоря - не злой умысел, а перестаравшийся исполнитель. Но именно такие случаи привели, например, к непреднамеренному удалению данных - и система помогла вовремя это обнаружить.

Наработки легли в основу мониторинга реального времени для агента Gemini Spark. Параллельно формируется таксономия угроз TRAIT&R - аналог отраслевой базы ATT&CK в кибербезопасности, только заточенный под поведение ИИ. Три категории рисков: утеря контроля над агентом, скрытый саботаж систем безопасности и прямой вред - от утечки весов модели до уничтожения критических активов.

Всего в дорожной карте перечислено 15 механизмов снижения риска: сетевые журналы, анализ траекторий рассуждений, мониторинг активации нейронов - что-то вроде МРТ в реальном времени для нейросети. Все эти инструменты в перспективе войдут в Frontier Safety Framework. Часть уже внедрена. Гонка идёт не только за возможностями - но и за контролем над ними.