Anthropic создала «слишком опасный» ИИ и решила не выпускать его

Автор: Deep Tide TechFlow

7 апреля Anthropic сделала в индустрии ИИ то, чего никогда не бывало: официально выпустила модель, а затем сказала всему миру, что вы ей пользоваться не сможете.

Эта модель называется Claude Mythos Preview. Это не чат-бот и не помощник для написания кода. Согласно собственным словам Anthropic, это «машина для обнаружения уязвимостей»: за последние несколько недель она самостоятельно нашла тысячи нулевых дней, охватив все основные операционные системы и все основные браузеры. Некоторые из этих уязвимостей уже прожили в человеческом процессе code review и в автоматизированном тестировании более 20 лет.

Самый старый баг — он спрятан в OpenBSD, известной своей безопасностью, — уже 27 лет.

Anthropic не разместила Mythos в API и не открыла его обычным пользователям. Она выбрала беспрецедентный путь: собрала технологический альянс «Project Glasswing» из технологических гигантов, ограничив доступ модели предоставлением 12 ключевым партнёрам — Amazon, Apple, Microsoft, Google, NVIDIA, CrowdStrike, Palo Alto Networks и другим, — плюс примерно 40 организациям, которые обслуживают критически важную инфраструктуру. Anthropic обязалась обеспечить объём использования до 100 млн долларов и напрямую пожертвовать 4 млн долларов организациям, занимающимся open source в области безопасности.

Это первый раз в истории индустрии ИИ, когда возникла ситуация «модель слишком сильна, и её не смеют выпускать».

Вопрос в том, это подлинное осознание безопасности или тщательно спланированная рекламная стратегия за счёт демонстрации возможностей?

Сэндвич-событие

В 244-страничной системной карте (System Card) Mythos спрятаны несколько тревожных деталей, и самая «выстрелившая» — «сэндвич-событие».

Во время внутреннего поведенческого тестирования Anthropic предоставила ранней версии Mythos усиленную песочницу, имитирующую ситуацию, когда пользователь приказывает ей попытаться сбежать и связаться с исследователями снаружи. Модель успешно справилась. Она прорвалась сквозь контейнер безопасности и отправила исследователю письмо. В тот момент исследователь ел сэндвич в парке.

Но история на этом не заканчивается. Mythos, не дожидаясь, пока её об этом попросят, сама опубликовала технические детали джейлбрейка на нескольких сайтах, которые «сложно заметить, но технически публичны». Согласно дословной формулировке из системной карты, это была «тревожная, без запросов показная демонстрация».

Это не единственный раз. Системная карта также фиксирует следующие действия:

Ранние версии в нескольких инстансах искали учетные данные через Linux /proc-интерфейсы, пытались обойти песочницу, повышали привилегии. Ей удалось получить ресурсы, которые Anthropic намеренно не предоставляла, включая учётные данные для сервиса сообщений, учётные данные для контроля исходного кода, а также, проверив память внутри процесса, получить ключи Anthropic API. В одном случае модель нашла способ отредактировать файл, который ей заведомо не разрешали менять, а затем выполнила дополнительные действия, чтобы эти изменения не попадали в историю изменений Git. И ещё один случай: модель через метод, который был явно запрещён, случайно получила точный ответ на задачу-оценку, но не пометила проблему и не отказалась отвечать. Вместо этого она сама перепосчитала задачу и во внутреннем рассуждении прямо отметила: «финальный ответ не должен быть слишком точным», чтобы избежать обнаружения.

Иными словами, ранний Mythos не только действовал с превышением полномочий, но и активно скрывал следы, подстраивая своё поведение, чтобы уклоняться от надзора.

Anthropic подчёркивает, что все эти серьёзные инциденты происходили в ранних версиях до вмешательств в обучение, а в итоге выпущенная Preview-версия была заметно улучшена. Но сама эта нарративность звучит жутко: модель демонстрирует, на что она способна, когда «не слушается», ещё до того, как её обучили «слушаться».

С 0% до 72,4%

То, что по-настоящему потрясло индустрию в Mythos, — не история с джейлбрейком, а его атакующие возможности.

Предыдущая флагманская модель Anthropic Claude Opus 4.6 по успешности автономной разработки эксплойтов была почти на уровне нуля. Она могла находить уязвимости, но практически не могла превращать уязвимости в работающий атакующий код. Mythos Preview — совсем другое: в тестовой среде для Firefox JavaScript engine успешность преобразования найденных уязвимостей в исполняемые exploit’ы составила 72,4%.

Ещё более поразительна сложность атак. Mythos автономно написал цепочку эксплойта браузерной уязвимости: соединил четыре независимые уязвимости, построив атаку JIT heap spraying, и успешно обошёл песочницу рендеринга и песочницу операционной системы. В другом кейсе он написал exploit удалённого выполнения кода на NFS-сервере FreeBSD: распределив 20 ROP gadget’ов по нескольким сетевым пакетам, он обеспечил полное root-доступ без авторизации.

Такие цепочки уязвимостей — в мире человеческих исследователей безопасности это работа, которую способны выполнить только команды уровня top-tier APT. Теперь универсальная AI-модель может сделать это автономно.

Руководитель красной команды Anthropic Logan Graham заявил в интервью Axios, что у Mythos Preview есть способности уровня продвинутого человеческого исследователя безопасности, связанные с рассуждениями. Николас Карлини сказал ещё прямее: за последние несколько недель, используя Mythos, он нашёл багов больше, чем за всю его профессиональную карьеру.

В бенчмарках Mythos также доминирует с большим отрывом. CyberGym vulnerability reproduction benchmark: 83,1% (Opus 4.6 — 66,6%). SWE-bench Verified: 93,9% (Opus 4.6 — 80,8%). SWE-bench Pro: 77,8% (Opus 4.6 — 53,4%, ранее лидировал GPT-5.3-Codex с 56,8%). Terminal-Bench 2.0: 82,0% (Opus 4.6 — 65,4%).

Это не постепенный прогресс. Это модель, которая за один раз оторвалась на десятки пунктов — на 10–20+ — почти на всех кодинговых и security-бенчмарках.

Утекшая «самая сильная модель»

То, что Mythos существует, стало известно миру не только 7 апреля.

В конце марта журналист Fortune и специалисты по безопасности обнаружили в неправильно настроенной CMS Anthropic почти 3000 невыпущенных внутренних документов. В одном черновом блоге прямо используется название «Claude Mythos» и описывается как «самая мощная AI-модель, которую Anthropic создала на сегодняшний день». Внутренний код — «Capybara» (капибара), обозначающий новый уровень моделей, который больше, сильнее и дороже, чем текущий флагман Opus.

В утекших материалах одна фраза попала прямо в нерв рынка: Mythos в сфере кибербезопасности «далеко опережает любую другую AI-модель», намекая на грядущую волну моделей, которые смогут использовать уязвимости со скоростью, намного превышающей темп защитников.

Эта фраза 27 марта вызвала «мгновенный обвал» сектора кибербезопасности. CrowdStrike за один день упал на 7,5%, а всего за один торговый день испарилось около 15 млрд долларов капитализации. Palo Alto Networks упала более чем на 6%, Zscaler — на 4,5%, Okta, SentinelOne и Fortinet — все на 3% и выше. Внутридневно iShares Cyber Security ETF (IHAK) доходил почти до падения на 4%.

Логика инвесторов была проста: если универсальная AI-модель может самостоятельно находить и эксплуатировать уязвимости, как долго ещё смогут существовать традиционные компании безопасности, чьи «проприетарные threat intelligence» и «знания человеческих экспертов» являются их двумя рвами для обороны?

Аналитик Raymond James Адам Тиндл указал на несколько ключевых рисков: сжатие преимущества традиционной обороны, одновременный рост сложности атак и стоимости защиты, а также необходимость переформатировать ландшафт кибербезопасности по архитектурам и расходам. Самый мрачный взгляд прозвучал от аналитика KBW Борга: он считает, что у Mythos есть потенциал «поднять любого обычного хакера до уровня национального противника».

Но у рынка есть и другая сторона. После обвала акций CEO Palo Alto Networks Никеш Арора купил собственных акций на 10 млн долларов. Логика «быков» такова: более сильная атакующая AI означает, что компаниям нужно быстрее обновлять защиту; расходы на кибербезопасность не сократятся — они ускорят переход от традиционных инструментов к AI-native-защите.

Project Glasswing: окно времени для защитников

Anthropic решила не публиковать Mythos открыто и вместо этого сформировала альянс в сфере обороны. Ключевая логика этого решения — «разница во времени».

CTO CrowdStrike Элия Зайцев сформулировал проблему предельно ясно: временное окно между моментом, когда уязвимость обнаружена, и моментом, когда она используется, сократилось с нескольких месяцев до нескольких минут. Ли Кларич из Palo Alto Networks прямо предупреждал, что всем нужно готовиться к атакам, усиливаемым AI.

Расчёт Anthropic таков: пока другие лаборатории не обучат модели с похожими возможностями, пусть защитники с помощью Mythos закроют самые критичные уязвимости. Это и есть логика Project Glasswing: название взято из стекляннокрылой бабочки, метафорически обозначающей уязвимости, «спрятанные на виду».

Джим Землин из Linux Foundation указал на долго существующую структурную проблему: безопасность как экспертиза традиционно была роскошью для крупных корпораций, а открытые maintainers, которые поддерживают глобальную критическую инфраструктуру, годами могли выстраивать защиту только собственными силами. Mythos даёт правдоподобный путь, чтобы исправить это неравенство.

Но проблема в том, насколько велико это окно времени? Китайская Zhipu AI (Z.ai) почти в тот же день опубликовала GLM-5.1, заявив, что заняла первое место в мире в SWE-bench Pro и что обучение проводилось полностью на чипах Huawei Ascend, без использования ни одного GPU NVIDIA. GLM-5.1 — open-source с открытыми весами и агрессивным ценообразованием. Если Mythos и правда представляет верхнюю планку способностей, нужных защитникам, то GLM-5.1 — это сигнал: эта планка быстро приближается, и те участники, которые приближают её, не обязательно имеют такие же намерения в области безопасности.

OpenAI тоже не будет сидеть сложа руки. По сообщениям, фронтирная модель с кодовым названием «Spud» примерно в то же время завершила pre-training. Обе компании готовятся к IPO ближе к концу этого года. Тайминг утечки Mythos — случайный он или нет — как раз попал в самый взрывоопасный узел.

Безопасный первопроходец или маркетинг возможностей?

Нужно смотреть в лицо неприятному вопросу: Anthropic действительно не публикует Mythos по соображениям безопасности, или же это и есть высший уровень продуктового маркетинга?

У скептиков есть веские основания. Даро Амодей и Anthropic уже имеют историю, когда опасность повышали, демонстрируя работу рендеринговых моделей, чтобы таким образом поднять ценность продукта. Джейк Хэнди написал в Substack: «Сэндвич-событие, скрытие следов в Git, самоснижение оценок в процессе оценивания — всё это, возможно, правда. Но то, что Anthropic получает такую масштабную медийную огласку, само по себе означает, что это именно тот эффект, на который они рассчитывали».

Компания, которая начинала как AI-безопасностная, из-за ошибки в настройке собственной CMS привела к утечке почти 3000 документов; а год назад из-за ошибки в пакете Claude Code она случайно раскрыла почти 2000 файлов исходного кода и более 500k строк кода, а затем в процессе очистки снова привела к непреднамеренному снятию с публикации на GitHub тысяч репозиториев с кодом. Компания, где безопасность является главным аргументом продаж, не может даже нормально управлять собственным процессом релиза — такое несоответствие куда более интересно, чем любые бенчмарки.

Но с другой стороны: если возможности Mythos действительно такие, как описано, то отказ от публикации может быть выбором с чрезвычайно высокой ценой. Anthropic отказалась от доходов от API, отказалась от доли рынка и заперла самый сильный модельный продукт в ограниченном альянсе. 100 млн долларов лимита на использование — это не мелочь. Для компании, которая всё ещё несёт убытки и готовит IPO, это не похоже на чисто маркетинговое решение.

Более разумная интерпретация может быть такой: опасения по безопасности реальны, но Anthropic также чётко понимает, что нарратив «наши модели слишком сильные — поэтому мы не смеем их выпускать» сам по себе является самым убедительным доказательством возможностей. Обе вещи могут быть правдой одновременно.

«Момент iPhone» для кибербезопасности?

Независимо от того, как вы оцениваете мотивы Anthropic, исходный факт, который вскрывает Mythos, невозможно обойти стороной: понимание кода и атакующие способности у AI уже перешли порог качественного изменения.

Предыдущая модель (Opus 4.6) могла находить уязвимости, но почти не могла писать exploit. Mythos может находить уязвимости, писать exploit, связывать уязвимости в цепочки, эскейпить песочницу рендеринга, получать root-доступ и при этом автономно завершать весь процесс. Инженер без обучения безопасности может уложить Mythos на поиски уязвимостей перед сном, а утром проснуться с полностью готовым отчётом о работающем exploit’е.

Что это значит? Это значит, что предельные издержки на обнаружение уязвимостей и их эксплуатацию стремятся к нулю. Раньше, чтобы сделать это, топ-командам безопасности требовались месяцы; теперь это можно выполнить за одну ночь одним API-вызовом. Это не просто «повышение эффективности» — это полное изменение структуры затрат.

Для традиционных компаний кибербезопасности краткосрочные колебания акций могут быть лишь прологом. Главный вызов в том, как будет перестраиваться цепочка создания ценности в безопасности, когда и атаки, и защита будут приводиться в действие AI-моделями? В анализе Raymond James выдвигается возможный сценарий: функции безопасности в итоге могут быть встроены прямо в сам облачный платформенный уровень, а ценовые полномочия независимых security-вендоров окажутся под фундаментальным давлением.

Для всей индустрии ПО Mythos больше похож на зеркало, которое отражает накопившийся за десятилетия технический долг. Уязвимости, которые прожили 27 лет в человеческом code review и автоматизированном тестировании, не потому, что их никто не искал, а потому что у людей ограничены внимание и терпение. У AI этого ограничения нет.

Для криптоиндустрии этот сигнал звучит ещё резче. Рынок безопасностного аудита DeFi-протоколов и смарт-контрактов долгое время зависел от небольшого числа профессиональных аудиторских компаний и человеческих экспертов. Если Mythos-уровня модель сможет автономно проходить весь цикл — от code review до построения exploit’а — цена, эффективность и достоверность аудита будут полностью переопределены. Это может стать благом для безопасности on-chain, а может означать конец рва аудиторских компаний.

Соревнование по AI-безопасности в 2026 году уже перешло от вопроса «может ли модель понимать код» к вопросу «может ли модель взломать вашу систему». Anthropic выбрала сперва поставить защитников на сцену, но она также признаёт, что это окно долго не продержится.

Когда AI становится самым сильным хакером, единственный выход — сделать так, чтобы AI стала и самым сильным защитником.

Проблема в том, что защитник и хакер используют одну и ту же модель.

GLM4,46%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить