Editorial LLMs & Texto

Fable 5 volta ao ar depois de 19 dias banido — e a indústria propõe um "CVSS" para jailbreaks

Um jailbreak reportado pela Amazon levou o governo dos Estados Unidos a suspender globalmente o acesso estrangeiro ao Claude Fable 5 e ao Mythos 5. Dezenove dias depois, a Anthropic recuperou o modelo — e saiu da crise com Amazon, Microsoft e Google desenhando uma régua comum para medir a gravidade de um jailbreak.

Ponto Zero · 04 de janeiro de 2026

Há episódios que testam não a capacidade de um modelo, mas a capacidade de uma indústria inteira de lidar com o que acontece quando algo dá errado. O caso do Claude Fable 5 é um deles. Em pouco mais de três semanas, o modelo mais recente da Anthropic saiu do ar por ordem do governo americano, ficou fora do alcance de usuários estrangeiros no mundo todo, voltou — e deixou como saldo um rascunho de padrão que Anthropic, Amazon, Microsoft e Google estão tentando aplicar à indústria toda.

Não é um caso de modelo que "alucinou" ou decepcionou benchmark. É um caso de política, segurança e velocidade de resposta — e por isso interessa mesmo a quem não usa Claude no dia a dia.

O que de fato aconteceu

A Anthropic lançou o Claude Fable 5, ao lado de uma variante chamada Mythos 5, em 9 de junho de 2026. Três dias depois, em 12 de junho, o governo dos Estados Unidos emitiu uma diretriz de controle de exportação obrigando a Anthropic a suspender, globalmente, o acesso de usuários estrangeiros aos dois modelos — citando risco à segurança nacional.

O gatilho: pesquisadores da Amazon reportaram um jailbreak — uma técnica de manipulação de prompt que contorna as barreiras de segurança de um modelo — capaz de fazer o Fable 5 enumerar vulnerabilidades de software. Não é pouca coisa: um sistema que lista falhas exploráveis em código, se mal utilizado, vira ferramenta de ataque.

      9 de junho de 2026 — lançamento do Claude Fable 5 e do Mythos 5
12 de junho — governo dos EUA ordena suspensão global do acesso estrangeiro
~19 dias de indisponibilidade para usuários fora dos EUA
30 de junho — restrições suspensas pelo governo
1º de julho — Fable 5 volta ao ar globalmente
99%+ de bloqueio do jailbreak original, segundo classificador atualizado da Anthropic

    

Por que a Anthropic discorda da própria suspensão

O ponto mais afiado do episódio é que a Anthropic não aceitou a narrativa em silêncio. A empresa reconheceu o jailbreak, mas argumentou publicamente que uma técnica pontual de contorno não deveria justificar a retirada de um modelo usado por centenas de milhões de pessoas — especialmente porque a mesma técnica, segundo a própria Anthropic, também funcionava contra o Opus 4.8, o GPT-5.5 e o Kimi K2.7. Ou seja: não era uma falha exclusiva do Fable 5, era um problema de categoria, presente em modelos de concorrentes diretos.

Essa distinção importa. Um jailbreak específico de um modelo pede um reparo pontual. Um jailbreak que atravessa arquiteturas e laboratórios diferentes pede uma resposta de indústria — e é exatamente isso que veio a seguir.

A retomada e o que mudou no modelo

Em 30 de junho, o governo suspendeu as restrições. A Anthropic relançou o Fable 5 globalmente em 1º de julho, com um classificador de segurança atualizado que, segundo a empresa, bloqueia o jailbreak reportado em mais de 99% dos casos. Não é blindagem absoluta — nenhum classificador é — mas é o tipo de número que separa "resolvido" de "ignorado".

O padrão que nasce da crise: um "CVSS" para jailbreaks

O desdobramento mais interessante não é técnico, é institucional. Ao lado da retomada, a Anthropic publicou, em conjunto com Amazon, Microsoft, Google e outros parceiros do que os documentos chamam de coalizão "Glasswing", um framework compartilhado para classificar a gravidade de um jailbreak.

A lógica é emprestada de um sistema que a indústria de segurança de software já usa há duas décadas: o CVSS (Common Vulnerability Scoring System), a escala padrão que classifica a severidade de uma vulnerabilidade de software. O equivalente para IA proposto agora usa quatro eixos: ganho de capacidade (o quanto o jailbreak destrava algo que o modelo não faria), amplitude de impacto (quantos sistemas e usuários são afetados), facilidade de armamento (quão simples é transformar o jailbreak em uso malicioso real) e nível de descoberta (quão fácil é para outros atores encontrarem a mesma brecha de forma independente).

Sem uma régua comum, cada laboratório decide sozinho o que é "grave" — e cada governo, sem critério compartilhado, pode reagir de formas desproporcionais e imprevisíveis, como aconteceu aqui. Um padrão de severidade, mesmo informal, dá aos reguladores um vocabulário para calibrar resposta ao tamanho real do problema, não ao susto do momento.

Por que isso importa além do Fable 5

O episódio expõe uma tensão que só vai crescer: modelos de fronteira agora são infraestrutura crítica o bastante para acionar mecanismos de controle de exportação — o mesmo regime usado historicamente para armas, semicondutores avançados e tecnologia militar. Isso muda o cálculo de risco para qualquer laboratório que lance um modelo de ponta: a superfície de ataque relevante não é só técnica, é geopolítica.

Ao mesmo tempo, a resposta coordenada entre concorrentes diretos — Anthropic, Amazon, Microsoft e Google desenhando um padrão juntos — é um sinal raro de que a indústria prefere se autorregular com um vocabulário técnico comum a esperar que cada governo imponha sua própria régua, caso a caso.

O que ainda fica em aberto

O framework de severidade, até onde se sabe, é uma proposta de coalizão, não uma norma obrigatória — não há indicação de que reguladores o adotaram formalmente. Também não há clareza pública sobre quantos usuários ou aplicações concretas foram afetados durante os 19 dias de suspensão, nem sobre o que exatamente qualifica um jailbreak a acionar controle de exportação da próxima vez. E, como todo classificador de segurança, o "mais de 99%" de bloqueio da Anthropic é uma métrica própria — vale acompanhar se pesquisadores independentes confirmam o número.

Perguntas Frequentes

O que são Fable 5 e Mythos 5?

Fable 5 é o modelo de linguagem mais recente da linha Claude, da Anthropic, lançado em 9 de junho de 2026. Mythos 5 é uma variante lançada no mesmo pacote. Os dois foram alvo da suspensão determinada pelo governo americano.

Por que o governo dos Estados Unidos suspendeu o acesso ao modelo?

Depois que pesquisadores da Amazon reportaram um jailbreak capaz de fazer o Fable 5 enumerar vulnerabilidades de software, o governo emitiu uma diretriz de controle de exportação — o mesmo tipo de mecanismo usado para restringir tecnologia sensível — suspendendo o acesso estrangeiro global aos modelos por questão de segurança nacional.

O jailbreak era exclusivo do Fable 5?

Não, segundo a Anthropic. A empresa afirma que a mesma técnica também funcionava contra o Claude Opus 4.8, o GPT-5.5 (da OpenAI) e o Kimi K2.7 (da Moonshot AI) — um indício de que o problema é de categoria, não de um modelo isolado.

O que é o padrão de severidade de jailbreak anunciado junto com a retomada?

É uma proposta conjunta da Anthropic com Amazon, Microsoft, Google e outros parceiros para classificar a gravidade de um jailbreak em quatro eixos — ganho de capacidade, amplitude de impacto, facilidade de armamento e nível de descoberta —, inspirada no CVSS, o sistema padrão de pontuação de vulnerabilidades de software.

O que fica do episódio não é o jailbreak em si — brechas de segurança em modelos de linguagem continuarão aparecendo, quase por definição. O que fica é o precedente: um modelo de fronteira pode ser desligado por decreto governamental em poucos dias, e a resposta da indústria, desta vez, foi tentar substituir o susto por régua. Se o padrão pega — e se reguladores o adotam de fato — a próxima crise desse tipo pode ser medida em vez de apenas temida.

// relacionados