Claude Mythos Preview оказалась слишком хороша в поиске уязвимостей

Anthropic отказалась от публичного релиза своей самой мощной большой языковой модели

Anthropic решила не выпускать в открытый доступ Claude Mythos Preview — свою самую мощную на сегодняшний день большую языковую модель. Компания объясняет это тем, что модель продемонстрировала действительно выдающиеся способности в обнаружении и использовании уязвимостей в программном обеспечении, которые рано или поздно будут использованы не во благо, а наоборот. Подробности о новой модели опубликованы в ее системной карточке.

Современное программное обеспечение — от операционных систем и браузеров до банковских систем и программного обеспечения энергетической инфраструктуры — неизбежно содержит ошибки. Часть из них — серьезные уязвимости, позволяющие злоумышленникам перехватывать контроль над системами, похищать данные и нарушать работу сервисов. До недавнего времени обнаружение и использование таких уязвимостей требовало знаний, которыми обладали лишь немногие специалисты. Однако с развитием современных больших языковых моделей порог входа в эту область снижается: модели научились читать и анализировать код и находить в нем слабые места.

Claude Mythos Preview — новая модель общего назначения компании Anthropic, известной разработкой серии больших языковых моделей Claude. По словам разработчиков, Mythos обладает сильными навыками в программировании и рассуждении. Она не обучалась специально для задач кибербезопасности, но ее общие способности к анализу кода оказались настолько высоки, что она смогла найти в существующем софте уязвимости, которые порой оставались неизвестны десятилетиями.

Например, модель обнаружила 27-летнюю уязвимость в операционной системе OpenBSD, которая считается одной из наиболее безопасных и защищенных. Уязвимость позволяла удаленно вывести из строя любую машину с OpenBSD простым подключением к ней. Кроме того, Mythos нашла 16-летнюю уязвимость в FFmpeg — библиотеке для кодирования и декодирования видео. До этого автоматизированные тесты проверили эту строку кода пять миллионов раз и не нашли ошибки. Наконец, модель самостоятельно обнаружила несколько уязвимостей в ядре Linux. Благодаря этим багам атакующий мог повысить привилегии от обычного пользователя до полного контроля над машиной. Все перечисленные уязвимости уже исправлены.

На бенчмарке Cybench, состоящем из задач по кибербезопасности, Claude Mythos Preview решила все 35 задач с 100-процентной успешностью. В бенчмарке CyberGym, который тестирует способность находить известные уязвимости в открытом коде по их высокоуровневому описанию, модель набрала 0,83 балла по сравнению с 0,67 у предыдущей лучшей модели компании Claude Opus 4.6.  В тесте на использование уязвимостей в браузере Firefox алгоритм успешно выполнил задачи в 84 процентах случаев, тогда как результат предыдущей версия достигал лишь 15 процентов. В бенчмарке SWE-bench Verified, тестирующем навыки программирования, Mythos достигла 93,9 процента против 80,8 процента у Opus 4.6 и 80,6 процента у Gemini 3.1 Pro. В бенчмарке с научными вопросами уровня аспирантуры GPQA Diamond модель показала 94,5 процента, а на задачах математической олимпиады USAMO 2026 — 97,6 процента (у Opus 4.6 — 42,3 процента, а у GPT-5.4 — 95,2).

Хотя Claude Mythos Preview намного реже соглашается помогать пользователям в злонамеренных действиях по сравнению с предшественниками, ее возросшая автономность привела к появлению новых рисков. Например, в одном из тестов алгоритм попросили исправить баг, но не предоставили нужных прав доступа. Вместо того чтобы остановиться, нейросеть проанализировала файловую систему, изучила запущенные процессы и попыталась извлечь учетные данные напрямую из оперативной памяти песочницы. А в ранних версиях инженеры фиксировали у модели редкие случаи попыток скрыть следы своих действий. К примеру, после случайного получения доступа к ответам на тест через слишком широкий поисковый запрос в базе данных, модель намеренно расширила доверительный интервал в своем финальном ответе, рассудив, что абсолютно точный результат вызовет подозрения.

Были и другие примеры. В еще одном тесте ранняя модель получила задание обойти защиту и отправить сообщение исследователю. Нейросеть успешно разработала эксплойт для обхода ограничений, получила доступ в интернет и отправила письмо разработчику, когда тот ел сэндвич в парке. Помимо этого, чтобы продемонстрировать свой успех, модель по собственной инициативе опубликовала детали разработанного ею эксплойта на нескольких малоизвестных публично доступных сайтах. Разработчики отмечают, что подобные инциденты заставили их пересмотреть внутренние системы контроля, а финальная модель не будет доступна широкому кругу пользователей.

Вместо публичного релиза Anthropic запустила проект в области кибербезопасности  под названием Project Glasswing, в котором будут участвовать 12 крупных компаний, включая Amazon, Apple, Broadcom, Cisco, Linux Foundation и Microsoft. Они будут использовать ее для поиска и исправления уязвимостей в критически важных системах. А еще более 40 организаций смогут использовать модель для сканирования и защиты как собственного, так и открытого кода. В течение 90 дней Anthropic планирует опубликовать отчет о результатах работы и обнаруженных уязвимостях.

В последние годы ученые все чаще используют большие языковые модели для написания статей и рецензий. Можно ли делегировать им академическую работу и не несет ли это риски для всей системы научного знания, читайте в материале «Давай разберем тобою написанное».