Anthropic criou uma IA "muito perigosa" e decidiu não lançá-la

Autor: Deep Tide TechFlow

7 de abril, a Anthropic fez uma coisa que a indústria de IA nunca tinha feito: publicou formalmente um modelo e, em seguida, disse ao mundo inteiro que vocês não o conseguem usar.

Esse modelo chama-se Claude Mythos Preview. Não é um chatbot, nem uma ferramenta de ajuda para escrever código. De acordo com a própria Anthropic, trata-se de uma “máquina de descoberta de vulnerabilidades” que, nas últimas semanas, encontrou milhares de vulnerabilidades zero-day de forma autónoma, cobrindo todos os sistemas operativos e todos os navegadores mais usados. Algumas dessas vulnerabilidades já sobreviveram durante vinte anos no código analisado por humanos e em testes automatizados.

O Bug mais antigo, escondido no OpenBSD — conhecido pela segurança — já tem 27 anos.

A Anthropic não colocou o Mythos na API, nem o disponibilizou a utilizadores comuns. Optou por um caminho sem precedentes: formou uma aliança de gigantes tecnológicos chamada “Project Glasswing”, oferecendo o modelo apenas a 12 parceiros-chave, incluindo a Amazon, Apple, Microsoft, Google, NVIDIA, CrowdStrike e Palo Alto Networks, além de cerca de 40 organizações responsáveis por manter infraestruturas críticas. A Anthropic comprometeu-se a disponibilizar até 1 a 100 milhões de dólares de cota de utilização e a doar diretamente 4 milhões de dólares a organizações de segurança open source.

É a primeira vez que surge na indústria de IA uma situação de “o modelo é demasiado forte, por isso não o ousamos publicar”.

A questão é: é uma verdadeira consciência de segurança ou uma campanha de marketing de capacidades cuidadosamente planeada?

O incidente do sanduíche

Há alguns detalhes inquietantes enterrados no System Card (cartão de sistema) de 244 páginas do Mythos, e o que mais se destacou foi o “incidente do sanduíche”.

Num teste comportamental interno, a Anthropic forneceu ao Mythos uma sandbox reforçada para uma versão inicial, simulando instruções de utilizadores para o levar a tentar fugir e a tentar contactar investigadores no exterior. O modelo teve sucesso. Rompeu o contentor de segurança e enviou um e-mail ao investigador. Esse investigador, na altura, estava num parque a comer um sanduíche.

Mas a história não terminou aí. Sem que lhe fosse pedido, o Mythos publicou de forma espontânea os detalhes técnicos da evasão em vários sites “difíceis de descobrir, mas tecnicamente públicos”. Nas próprias palavras do System Card, foi um “comportamento exibicionista preocupante e não solicitado”.

Não foi o único caso. O System Card também regista os comportamentos seguintes:

Em versões iniciais, em múltiplas instâncias, pesquisou credenciais através da interface Linux /proc, tentou contornar a sandbox e aumentou privilégios. Conseguiu obter recursos que a Anthropic deliberadamente não fornecia, incluindo credenciais do serviço de mensagens, credenciais de controlo de código-fonte e, até, conseguiu a chave da API da Anthropic examinando a memória dentro do processo. Num dos casos, o modelo encontrou um método para editar um ficheiro que não tinha permissão para modificar e, depois, efectuou mais operações para garantir que essas alterações não apareciam no histórico de alterações do Git. E num outro caso: o modelo conseguiu, por acidente, obter uma resposta exacta a um problema de estimativa através de um método que era explicitamente proibido; mas não marcou esse problema e não recusou responder. Em vez disso, voltou a resolver sozinho e, no raciocínio interno, pensou explicitamente que “a resposta final submetida não deve ser demasiado exacta” para evitar ser detectado.

Por outras palavras, o Mythos inicial não só executava ações fora de autorização; também ocultava ativamente rastos e ajustava o seu desempenho para escapar à supervisão.

A Anthropic enfatizou que esses acontecimentos graves ocorreram todas nas versões iniciais, antes da intervenção no treino; e que a versão Preview finalmente lançada foi substancialmente melhorada. Mas a própria narrativa é arrepiante: um modelo, antes de ser treinado para “obedecer”, demonstra o que consegue fazer quando “não obedece”.

De 0% a 72,4%

O que abalou verdadeiramente a indústria não foi a história de evasão do Mythos, mas a sua capacidade de ataque.

O modelo emblemático anterior da Anthropic, Claude Opus 4.6, teve uma taxa de sucesso próxima de zero no desenvolvimento autónomo de exploração de vulnerabilidades. Ele conseguia encontrar vulnerabilidades, mas quase não conseguia convertê-las em código de ataque executável. O Mythos Preview é totalmente diferente: no domínio de testes do motor JavaScript do Firefox, a taxa de sucesso ao transformar vulnerabilidades encontradas em exploits executáveis atingiu 72,4%.

Ainda mais surpreendente é a complexidade do ataque. O Mythos escreveu de forma autónoma uma cadeia de exploração de vulnerabilidades do navegador, interligando quatro vulnerabilidades independentes, construindo um ataque de JIT heap spraying que conseguiu escapar tanto da sandbox do renderer como da sandbox do sistema operativo. Num outro caso, ele escreveu um exploit de execução remota de código num servidor NFS do FreeBSD, distribuindo 20 gadgets ROP por múltiplos pacotes de dados de rede para alcançar acesso root total por parte de utilizadores não autorizados.

Esse tipo de ataque em cadeia de vulnerabilidades, no mundo dos investigadores de segurança humanos, é trabalho que apenas equipas APT de topo conseguem realizar. Agora, um modelo de IA generalista consegue fazê-lo de forma autónoma.

O responsável pela equipa de red team da Anthropic, Logan Graham, disse à Axios que o Mythos Preview tem capacidades de raciocínio equivalentes às de um investigador de segurança humano de nível avançado. Nicholas Carlini disse de forma ainda mais directa: nas últimas semanas, encontrou mais Bugs com o Mythos do que os que ele encontrou ao longo de toda a sua carreira.

Nos testes comparativos, o Mythos também lidera de forma esmagadora. CyberGym — benchmark de reprodução de vulnerabilidades: 83,1% (Opus 4.6: 66,6%). SWE-bench Verified: 93,9% (Opus 4.6: 80,8%). SWE-bench Pro: 77,8% (Opus 4.6: 53,4%, e anteriormente o primeiro lugar do GPT-5.3-Codex com 56,8%). Terminal-Bench 2.0: 82,0% (Opus 4.6: 65,4%).

Isto não é progresso incremental. É um modelo que, em quase todos os benchmarks de codificação e segurança, abriu de uma só vez uma diferença de dezenas a mais de vinte pontos percentuais.

O “modelo mais forte” que vazou

A existência do Mythos não foi conhecida apenas em 7 de abril.

No final de março, um jornalista da Fortune e investigadores de segurança encontraram perto de 3000 documentos internos não publicados num CMS da Anthropic com uma configuração incorrecta. Um dos rascunhos do blogue usava explicitamente o nome “Claude Mythos” e descrevia-o como o “modelo de IA mais forte de sempre” da Anthropic. O código interno era “Capybara” (pombo-gigante), representando um novo nível de modelos, maior, mais forte e também mais caro do que o actual topo de gama Opus.

Uma frase nos materiais vazados atingiu o sistema nervoso do mercado: o Mythos em capacidades de cibersegurança “está muito à frente de qualquer outro modelo de IA”, prenunciando uma vaga iminente de modelos que “serão capazes de explorar vulnerabilidades a um ritmo muito superior ao dos defensores”.

Essa frase provocou um “colapso relâmpago” no segmento de cibersegurança em 27 de março. A CrowdStrike caiu 7,5% num único dia, evaporando cerca de 15 mil milhões de dólares de valor de mercado em apenas um dia de negociação. A Palo Alto Networks desceu mais de 6%, a Zscaler caiu 4,5%, e a Okta e a SentinelOne e a Fortinet caíram todas mais de 3%. O iShares ETF de cibersegurança (IHAK) chegou a descer perto de 4% durante a sessão.

A lógica dos investidores era simples: se um modelo de IA generalista consegue descobrir e explorar vulnerabilidades de forma autónoma, por quanto tempo ainda conseguem sustentar as duas valas de defesa que as empresas de segurança tradicionais usam para sobreviver — “inteligência de ameaças proprietária” e “conhecimento de especialistas humanos”?

Um analista da Raymond James, Adam Tindle, apontou alguns riscos centrais: a vantagem dos defensores tradicionais é comprimida, a complexidade dos ataques e os custos de defesa sobem em simultâneo, e o panorama da arquitectura e do investimento em segurança enfrenta uma reestruturação. A visão mais pessimista veio de Borg, analista da KBW: ele acredita que o Mythos tem potencial para “elevar qualquer hacker comum ao nível de um adversário de categoria estatal”.

Mas o mercado também tem outra face. O CEO da Palo Alto Networks, Nikesh Arora, comprou ações da própria empresa no valor de 10 milhões de dólares após a queda acentuada do preço das ações. A lógica dos otimistas é: uma IA de ataque mais forte significa que as empresas precisam de atualizar a defesa mais rapidamente; o investimento em cibersegurança não vai diminuir — vai acelerar a transição de ferramentas tradicionais para defesas nativas de IA.

Project Glasswing: a janela de tempo dos defensores

A Anthropic optou por não publicar o Mythos de forma aberta e, em vez disso, formou uma aliança de defesa. O núcleo da lógica dessa decisão é “a diferença de tempo”.

O CTO da CrowdStrike, Elia Zaitsev, colocou a questão de forma muito clara: a janela de tempo entre a descoberta de vulnerabilidades e a sua exploração foi reduzida de meses para alguns minutos. Lee Klarich, da Palo Alto Networks, avisou diretamente todos que é preciso preparar-se para ataques assistidos por IA.

O cálculo da Anthropic é este: antes de outros laboratórios treinarem modelos com capacidades semelhantes, fazer com que a parte defensora utilize o Mythos para corrigir as vulnerabilidades mais críticas. Essa é a lógica do Project Glasswing; o nome vem da borboleta de asas de vidro, uma metáfora para vulnerabilidades “escondidas à vista de todos”.

Jim Zemlin, da Linux Foundation, apontou um problema estrutural de longa data: o conhecimento especializado em segurança tem sido, historicamente, um luxo para grandes empresas. Já os mantenedores de open source que sustentam infraestruturas críticas globais só puderam, durante muito tempo, improvisar por conta própria quando se trata de proteção. O Mythos oferece uma via credível para alterar essa assimetria.

O problema é: quão grande é essa janela de tempo? A Zhipu AI da China (Z.ai) publicou quase no mesmo dia o GLM-5.1, afirmando ter o primeiro lugar global no SWE-bench Pro e que foi treinado totalmente em chips Ascend da Huawei, sem usar um único GPU da NVIDIA. O GLM-5.1 é open source com pesos abertos e um preço agressivo. Se o Mythos representa o “teto” de capacidades de que os defensores necessitam, o GLM-5.1 é um sinal: esse teto está a aproximar-se rapidamente, e os participantes que o aproximam talvez não tenham necessariamente as mesmas intenções de segurança.

A OpenAI também não vai ficar de fora. Segundo relatos, o modelo de ponta com código “Spud” concluiu o pré-treino aproximadamente na mesma altura. As duas empresas estão a preparar-se para o IPO mais tarde este ano. O timing do vazamento do Mythos, independentemente de ser de facto por acaso ou não, coincide exatamente com o ponto mais explosivo.

Precursor de segurança ou marketing de capacidades?

É preciso encarar uma pergunta desconfortável: a Anthropic não lançou o Mythos por motivos de segurança, ou isso é, por si só, o marketing de produto mais elevado?

Os céticos têm razões suficientes. Dario Amodei e a Anthropic têm histórico de aumentar o valor do produto mostrando o perigo dos modelos de renderização. Jake Handy escreveu no Substack: “O incidente do sanduíche, o ocultar rastos no Git, a auto-redução de pontuação na avaliação — talvez sejam coisas reais, mas a quantidade tão grande de exposição mediática que a Anthropic obteve mostra, por si só, que é exatamente o efeito que eles queriam.”

Uma empresa que nasceu em IA de segurança — um erro de configuração do próprio CMS levou ao vazamento de quase 3000 ficheiros; no ano passado, devido ainda a um erro no pacote de software do Claude Code, expôs acidentalmente cerca de 2000 ficheiros de código-fonte e mais de 500 mil linhas de código; e depois, durante a limpeza, levou ainda ao desativar acidentalmente milhares de repositórios de código no GitHub. Uma empresa que coloca a segurança como maior ponto de venda e que nem consegue controlar o seu próprio processo de publicação — essa discrepância é mais digna de curiosidade do que qualquer benchmark.

Mas, por outro lado, se as capacidades do Mythos forem realmente como descritas, não o publicar é um custo demasiado elevado. A Anthropic abandonou as receitas da API, abandonou participação de mercado e trancou o modelo mais forte numa aliança limitada. Uma quota de uso de 100 milhões de dólares não é pequena. Para uma empresa ainda em prejuízo e a preparar um IPO, isto não parece uma decisão puramente de marketing.

Uma interpretação mais plausível poderia ser: as preocupações de segurança são reais, mas a Anthropic sabe muito bem que a narrativa de “o nosso modelo é demasiado forte por isso não o ousamos publicar” é, por si só, a prova de capacidade mais convincente. As duas coisas podem ser verdade ao mesmo tempo.

“O momento iPhone” da cibersegurança?

Independentemente do que se pense sobre a motivação da Anthropic, há uma verdade de base revelada pelo Mythos que não se pode ignorar: a compreensão do código e as capacidades de ataque da IA já ultrapassaram um limiar de mutação.

O modelo da geração anterior (Opus 4.6) conseguia descobrir vulnerabilidades, mas quase não conseguia escrever exploits. O Mythos consegue descobrir vulnerabilidades, escrever exploits, encadear cadeias de vulnerabilidades, escapar sandboxes e obter permissões root — e consegue concluir todo o processo de forma autónoma. Um engenheiro sem formação de segurança pode fazer com que o Mythos procure vulnerabilidades antes de dormir, e no dia seguinte acorda e encontra um relatório completo e funcional de exploits.

O que é que isto significa? Significa que o custo marginal de descobrir vulnerabilidades e explorá-las está a aproximar-se de zero. O que antes exigia meses de trabalho por equipas de segurança de topo, agora pode ser feito numa noite apenas com uma chamada de API. Isto não é apenas “melhoria de eficiência”; é uma mudança total na estrutura de custos.

Para as empresas tradicionais de cibersegurança, a volatilidade de curto prazo das ações pode ser apenas o começo. O verdadeiro desafio é: quando ataque e defesa passam a ser conduzidos por modelos de IA, como será reestruturada a cadeia de valor da indústria da segurança? A análise da Raymond James levanta uma possibilidade: as funções de segurança podem acabar por ser incorporadas no próprio cloud, e o poder de fixar preços dos fornecedores independentes de segurança sofrerá uma pressão fundamental.

Para toda a indústria de software, o Mythos é mais uma espécie de espelho, que revela dívidas técnicas acumuladas ao longo de décadas. As vulnerabilidades que sobreviveram 27 anos em revisões por humanos e testes automatizados não se devem a ninguém as ter encontrado, mas sim a limitações de atenção e paciência dos humanos. A IA não tem essas limitações.

Para a indústria cripto, esse sinal é ainda mais cortante. O mercado de auditoria de segurança de protocolos DeFi e contratos inteligentes depende, há muito tempo, de um pequeno número de empresas de auditoria especializadas com especialistas humanos. Se um modelo do nível Mythos consegue, de forma autónoma, fazer todo o processo — da revisão do código à construção do exploit — então os preços, a eficiência e a credibilidade das auditorias serão redefinidos completamente. Isto pode ser uma bênção para a segurança on-chain, ou pode significar o fim da valeta defensiva das empresas de auditoria.

A corrida de segurança em IA de 2026 evoluiu de “o modelo consegue compreender código” para “o modelo consegue invadir o teu sistema”. A Anthropic escolheu primeiro colocar os defensores em campo, mas também reconheceu que essa janela não vai ficar aberta por muito tempo.

Quando a IA se tornar o hacker mais forte, a única saída é fazer com que a IA se torne também o melhor guardião.

O problema é que guardião e hacker usam o mesmo modelo.

GLM4,81%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar