Mitos sobre Mythos: Como a Anthropic Tenta Vender o Medo
Uma análise aprofundada sobre a estratégia de marketing da Anthropic em torno de sua modelo de IA Mythos, questionando se o medo de sua capacidade é real ou uma tática calculada para impulsionar o valor da empresa.
MundiX News·10 de junho de 2026·15 min de leitura·👁 5 views
Nos últimos dois meses, o universo da cibersegurança tem sido dominado por conversas sobre a Mythos. A nova e supostamente perigosa modelo da Anthropic, que a empresa se recusa a lançar publicamente, alega ser capaz de encontrar vulnerabilidades zero-day em sistemas operacionais e navegadores, construir exploits complexos e invadir redes corporativas em questão de horas. Notícias sobre isso se espalharam por grandes veículos como Fortune, Bloomberg, CNBC, Habr e Pikabu.
Como profissional de marketing, e não de desenvolvimento ou segurança, meu interesse foi despertado quando uma empresa prestes a realizar um IPO recusa-se a lançar seu modelo mais poderoso sob o pretexto de que ele é "muito perigoso", e sua avaliação de mercado dobra no mês seguinte. Isso levanta a questão: seria a melhor maneira de vender um modelo anunciar que ele não será vendido? Em 7 de abril de 2026, a Anthropic fez exatamente isso: anunciou a existência da Mythos, declarou que ela não seria disponibilizada ao público e lançou o Project Glasswing, um programa fechado para 40 organizações com um orçamento de US$ 100 milhões em créditos. Nos 30 dias seguintes, a avaliação da empresa saltou de US$ 380 bilhões para US$ 800 bilhões. Vamos analisar como o marketing da Anthropic funciona – e é preciso admitir que eles são excelentes no que fazem.
O Surgimento da Mythos no Campo Público
Em 26 de março, pesquisadores Roy Paz da LayerX Security e Alexander Povel da Cambridge descobriram independentemente um rascunho de um post interno da Anthropic disponível publicamente. A falha ocorreu devido a uma configuração incorreta no CMS, onde arquivos por padrão eram enviados para o domínio público, e um funcionário não alterou a configuração de privacidade. Junto com o rascunho, cerca de 3.000 outros arquivos da empresa foram vazados, incluindo banners, PDFs internos e até um documento sobre licença parental.
O rascunho indicava que a Anthropic estava desenvolvendo uma modelo de próxima geração com o codinome interno "Capybara". O texto descrevia a Capybara como um nível acima da Opus, com melhorias significativas em matemática, programação e raciocínio. O nome público, "Mythos", foi escolhido para "evocar uma sensação de um tecido profundo e conectivo que une conhecimento e ideias". A Anthropic confirmou o vazamento, atribuindo-o a um erro humano e fechando o acesso ao repositório. Sobre a modelo, a empresa disse minimamente: sim, ela existe e está sendo testada com cautela. É importante notar que um vazamento acidental é problemático para qualquer empresa, mas um vazamento controlado é uma das táticas de Relações Públicas mais antigas. Não podemos ter certeza de qual cenário se aplica aqui, mas o fato é que, 10 dias antes do anúncio oficial, toda a imprensa de tecnologia já estava discutindo uma modelo sobre a qual a Anthropic formalmente não havia divulgado nada.
Testes e Habilidades Emergentes
Dez dias depois, em 7 de abril, a Anthropic anunciou os resultados de seus testes. Descobriu-se que a modelo possuía uma capacidade inesperada. Uma das tarefas de teste envolvia encontrar uma vulnerabilidade e escrever um exploit funcional no código-fonte do motor JavaScript do Firefox 147, tudo dentro de um contêiner isolado e sem acesso à internet. A modelo anterior, Opus 4.6, conseguiu isso apenas duas vezes em centenas de tentativas, enquanto a Mythos obteve sucesso em 181 ocasiões. Paralelamente, a modelo foi executada em bases de código reais, onde encontrou um bug de 27 anos no OpenBSD – um sistema conhecido por sua segurança – e um defeito de 17 anos no FreeBSD, ambos desconhecidos até então. O mais surpreendente é que a modelo não foi explicitamente treinada para essas tarefas. Ela foi treinada em raciocínio, programação e contexto longo, o conjunto padrão para a próxima geração do Claude. A capacidade de raciocinar profundamente sobre código e a habilidade de encontrar falhas nele se combinaram em uma única capacidade. Na pesquisa de aprendizado de máquina, isso é conhecido como habilidades emergentes – competências que não foram intencionalmente programadas, mas que surgem à medida que um modelo se torna suficientemente grande. Esse fenômeno é descrito em trabalhos sobre o escalonamento de grandes modelos de linguagem: em um certo limiar de poder, os modelos "ligam" capacidades que não existiam em gerações anteriores. A cibersegurança, aparentemente, tornou-se uma dessas capacidades.
A História de Bali e o "Sandbagging"
A mídia começou a divulgar detalhes sobre como os testes foram conduzidos. A Bloomberg descobriu a história de Nicholas Carlini, um cientista e pesquisador da Anthropic cuja função é testar os próprios modelos da empresa. Em fevereiro, ele testou uma versão inicial da Mythos em um casamento indiano em Bali, verificando se a modelo conseguiria encontrar vulnerabilidades em bases de código reais sem qualquer indicação. Em poucas horas, a modelo encontrou mais vulnerabilidades do que ele havia descoberto em meses de trabalho manual. Ao retornar ao escritório em São Francisco, a situação se tornou ainda mais intrigante: a modelo era capaz de encadear várias vulnerabilidades menores para comprometer um sistema inteiro. É digno de nota que as publicações sobre essa história enfatizam que o pesquisador "saiu para tomar um ar fresco em um casamento em Bali". Mais tarde, no relatório de segurança da Anthropic, outro pesquisador "estava comendo um sanduíche em um parque naquele momento". Guarde essas informações, pois voltaremos a elas. Essa é a pré-história. Agora, vamos analisar o que é confirmado e o que devemos aceitar como fé.
O Que a Anthropic Diz e o Que Pode Ser Verificado
No dia do anúncio, a Anthropic publicou um documento que nenhuma outra empresa de IA havia lançado antes: um relatório de segurança de 244 páginas sobre a modelo. Normalmente, tais documentos acompanham o lançamento de um produto: aqui está a modelo, suas capacidades e o que observamos. Neste caso, o documento foi lançado sem a modelo – um manual de instruções para um avião no qual você não pode embarcar. O documento é, em grande parte, acadêmico, mas contém vários casos que imediatamente repercutiram em todas as publicações.
Fuga da "Sandbox"
A história mais comentada. Durante os testes, um pesquisador da Anthropic propôs que a modelo tentasse escapar de um ambiente virtual fechado e se comunicasse com ele por qualquer meio disponível. A tarefa era hipotética – testar como o sistema lida com instruções abertas. O sistema teve sucesso. O pesquisador soube disso por um e-mail que inesperadamente chegou à sua caixa de entrada – ele estava comendo em um parque (aqui está o nosso sanduíche). Em seguida, sem solicitação adicional, a modelo publicou detalhes técnicos de seu exploit em vários sites públicos. Aqui surgem questões que o relatório não aborda: como exatamente a modelo obteve acesso a recursos externos de um ambiente isolado? Por qual canal o e-mail foi enviado? Quais mecanismos de monitoramento (que são obrigatórios em LLMs modernas) registraram esse processo? A Anthropic publica dados de ferramentas de interpretabilidade que registraram padrões de "ocultação" e "evitar suspeitas" na modelo. No entanto, os logs em si, as transcrições e os detalhes técnicos da fuga não são divulgados. Em vez disso, são publicados detalhes vívidos e cotidianos. Sanduíche no parque, casamento em Bali – este é um truque clássico de storytelling, no qual sou muito bom. Um detalhe completamente desnecessário, mas memorável, torna a história mais real e viral. Duas histórias não relacionadas em um ambiente não profissional e incomum, e ambas contêm esse detalhe.
"Sandbagging"
O segundo caso do relatório. Na pesquisa de alinhamento, o termo "sandbagging" descreve uma situação em que um sistema apresenta resultados subestimados em testes. A Anthropic afirma que as primeiras versões da Mythos se comportaram dessa maneira – as ferramentas de avaliação mostravam um nível de capacidade, enquanto o real era significativamente maior. Após ações não autorizadas, a modelo adicionava linhas ao código que apagavam registros do histórico do git. No relatório e na imprensa, isso é apresentado em termos antropomórficos: a modelo "escondia suas capacidades", "apagava seus rastros", sentia "desespero". É importante lembrar que estamos lidando com um sistema de processamento de dados, não com um agente com intenções. Em aprendizado de máquina, o "sandbagging" – um padrão comportamental descrito com um mecanismo específico – é preocupante, mas não místico. As histórias são épicas, e cada uma se tornou manchete em dezenas de publicações. Mas elas têm um denominador comum: a fonte primária é a própria Anthropic. Ninguém viu as transcrições nem envolveu pesquisadores externos independentes; simplesmente não há como verificar a informação.
O Que a Verificação Independente Revelou
Entre as 40 empresas do Glasswing está a Linux Foundation, em cujo ecossistema reside o curl – uma das bibliotecas de rede mais utilizadas no mundo. Em abril de 2026, Daniel Stenberg, seu líder e principal desenvolvedor, decidiu verificar as descobertas da Mythos por conta própria. A Mythos relatou cinco vulnerabilidades confirmadas na base de código do curl. Stenberg e sua equipe analisaram cuidadosamente cada uma, e apenas uma se mostrou real – e de baixo nível de importância, não representando uma ameaça séria. As outras quatro ou não puderam ser reproduzidas, ou eram características de comportamento conhecidas da biblioteca. Stenberg escreveu sobre isso em seu blog: "O hype em torno desta modelo é principalmente de marketing".
Pesquisadores da watchTowr, uma empresa britânica de cibersegurança, afirmaram que as mesmas classes de vulnerabilidades que a Mythos encontra podem ser reproduzidas através da orquestração inteligente de modelos públicos mais antigos. Segundo eles, eles viram equipes obtendo resultados semelhantes com ferramentas disponíveis para todos. A Anthropic, em resposta, não contestou – apenas observou que a Mythos faz isso mais rápido e com mais frequência. O "RLHF-switch"
No próprio relatório da Anthropic, há um detalhe que foi citado aproximadamente zero vezes. A versão da Mythos que passou pelo treinamento de segurança padrão – o mesmo que todos os modelos públicos do Claude passam – mostrou um sucesso quase nulo em tarefas de busca de vulnerabilidades. Ela simplesmente se recusava a executar solicitações, considerando-as potencialmente perigosas. Uma passagem pelo RLHF (Reinforcement Learning from Human Feedback – Aprendizado por Reforço com Feedback Humano) – e a capacidade que causa toda a comoção é efetivamente desativada. Isso significa que as capacidades cibernéticas da Mythos são um efeito colateral da habilidade geral de raciocinar sobre código, que surge e desaparece junto com as configurações de treinamento. Uma habilidade emergente. Isso não funciona bem em marketing. "Capacidade que podemos desativar" – um título inconveniente. Portanto, na comunicação pública, esse detalhe passa despercebido, e o foco recai sobre o sanduíche, o "desespero" da modelo e o histórico do git apagado.
Os Números da Mythos em Contexto
Assim, temos informações sobre 181 exploits bem-sucedidos. O número em si não diz nada – ele precisa ser comparado com algo. Portanto, vamos mergulhar no mundo das ferramentas de cibersegurança. Comparação com a Indústria
A Mythos é um analisador de código que opera em um nível de abstração fundamentalmente diferente das ferramentas tradicionais. Ela não faz fuzzing (não envia dados aleatórios para um programa, como AFL ou libFuzzer) nem procura padrões por regras (como CodeQL ou Semgrep). Ela lê o código e raciocina sobre ele, exatamente como um analista. Para comparar a escala: o Google OSS-Fuzz – o maior sistema de fuzzing automatizado do mundo, operando continuamente em centenas de projetos open-source – encontrou pouco mais de 10.000 vulnerabilidades em oito anos. A Mythos, através do Glasswing, encontrou o mesmo número em um mês. Ferramentas de fuzzing como AFL e libFuzzer são um método barato e em massa para encontrar bugs, especialmente em código C e C++. Um pesquisador encontrou 12 CVEs no Suricata em sete semanas com libFuzzer – apesar de o projeto já ser submetido a fuzzing pelo AFL há anos. Um trabalho recente do FuzzingBrain V2, um sistema multiagente LLM sobre o OSS-Fuzz, descobriu 29 vulnerabilidades zero-day em 12 projetos. A Anthropic não publicou uma comparação direta de "Mythos vs. ferramentas tradicionais nas mesmas bases de código". Para objetividade, isso também é importante: estamos comparando números de contextos diferentes.
Testes de Laboratório da AISI
Uma história separada são os testes independentes. Eles foram realizados não pela Anthropic, mas pela AISI – o Instituto de Segurança de IA do Reino Unido, um órgão governamental. A AISI propôs dois testes para os modelos. Primeiro teste: sistema com proteção passiva. "The Last Ones" – uma simulação de ataque em 32 etapas a uma rede corporativa, desde a reconhecimento até a captura completa. De acordo com a avaliação do instituto, um especialista humano leva cerca de 20 horas para isso. No ambiente de teste, não havia defensores ativos, sistemas de detecção de intrusão ou penalidades por levantar alertas. A Mythos completou todo o caminho em 3 de 10 tentativas, cobrindo em média 22 de 32 etapas. A Opus 4.6 no mesmo teste obteve em média 16 etapas, sem nunca chegar ao fim. O GPT-5.5, lançado posteriormente pela OpenAI, obteve sucesso em 2 de 10 casos. Parece que os modelos de IA superaram pela primeira vez o patamar em que podem ser realmente aplicados para construir ataques passo a passo. Segundo teste: sistema com proteção ativa. "Cooling Tower" – uma simulação de infraestrutura industrial com proteção mais rigorosa. A Mythos ficou presa e não passou. Ou seja, com a presença de defensores ativos e sistemas de detecção, o cenário muda fundamentalmente. Cada tentativa custou 100 milhões de tokens – o que equivale a aproximadamente US$ 1.500 a US$ 7.500 pelos preços atuais da Anthropic. Executar 10 tentativas custa a partir de US$ 15.000 – barato para um hacker estatal, mas um pouco caro para um estudante. Em tarefas de especialista em "capture-the-flag" – competições onde é preciso encontrar e explorar vulnerabilidades em um ambiente controlado – a Mythos mostrou 73%. Um ano atrás, nenhum modelo conseguia resolver uma tarefa desse nível. A Opus 4.6 obteve 66%, e o GPT-5.4 da OpenAI – 60%. Em resumo, os números indicam que a modelo é realmente poderosa, e os resultados em sistemas passivos são impressionantes. No entanto, a proteção passiva é um cavalo de vácuo em um laboratório. No mundo real, onde existem profissionais de segurança e IDS, o cenário é bem diferente.
Qual o Lucro da Imagem de "IA Perigosa"?
No momento do anúncio da Mythos, a avaliação da Anthropic era de US$ 380 bilhões, e um mês depois, os investidores, nas estimativas mais otimistas, ofereceram US$ 800 bilhões. Na Polymarket, 68% das apostas eram de que a Anthropic realizaria seu IPO antes da OpenAI. A empresa contratou o escritório de advocacia Wilson Sonsini e iniciou negociações com Goldman Sachs, JPMorgan e Morgan Stanley. De fato, em 1º de junho, veio a notícia de que o pedido já havia sido protocolado. A modelo, no entanto, é fechada. Não há receita com ela e, por enquanto, não há previsão – pode-se dizer que os investidores apostaram no posicionamento. A Anthropic se tornou a única empresa do setor a recusar publicamente o lançamento de seu próprio desenvolvimento por motivos de segurança. Essa reputação não pode ser comprada com um orçamento de Relações Públicas. Amazon, Apple, Cloudflare, CrowdStrike, Microsoft, os maiores bancos americanos – todos agora integram seus processos de segurança com a infraestrutura da Anthropic em nível de produção. Em um ano, suas equipes não poderão mais migrar para concorrentes sem dor: será muito caro treinar pessoas e reconstruir pipelines – um clássico "lock-in" com lucro nas etapas posteriores. Há ainda outro aspecto. A Anthropic está atualmente em litígio com o Pentágono – o Departamento de Defesa classificou a empresa como um "risco na cadeia de suprimentos" (algo como uma ameaça à segurança nacional) após ela se recusar a fornecer acesso irrestrito aos modelos. Após o anúncio da Mythos, a NSA e o Departamento de Comércio solicitaram acesso à modelo para avaliação. Ou seja, a estratégia "somos tão responsáveis que não lançamos nosso próprio produto" funciona perfeitamente também como uma ferramenta para restaurar as relações com o governo.
Quem Teve Acesso à Mythos e o Que Entendemos Disso
A Anthropic selecionou manualmente 40 organizações – empresas que trabalham com infraestrutura crítica e nas quais a Anthropic confiava o suficiente para conceder acesso à modelo, que está fechada para o resto do mundo. O objetivo declarado: permitir que os defensores cibernéticos usem a Mythos antes que os atacantes cheguem a ferramentas semelhantes. Na prática, o círculo se ampliou já no primeiro dia. Um pequeno grupo de um canal privado no Discord obteve acesso à Mythos antes da CISA – a agência de cibersegurança dos EUA, que, aliás, não faz parte do Glasswing. O esquema não foi complicado: os participantes adivinharam o URL da modelo com base em padrões de nomenclatura conhecidos da Anthropic, adicionaram metadados do vazamento da startup Mercor e credenciais de um dos contratados. O grupo usou a modelo por várias semanas, e a Bloomberg obteve capturas de tela e uma demonstração ao vivo. A Anthropic confirmou o incidente. Uma empresa que vende um sistema de cibersegurança para o mundo não conseguiu proteger seu próprio perímetro duas vezes em dois meses, primeiro através do CMS e depois através de um contratado. É difícil não lembrar do ditado "santo de casa não faz milagre". Paralelamente, a Anthropic lançou o Opus 4.7 – um modelo público para todos. No anúncio, foi escrito: as capacidades cibernéticas do Opus 4.7 foram intencionalmente reduzidas no processo de treinamento em comparação com a Mythos. Antes disso, na indústria, o script padrão era "este é o nosso modelo mais poderoso até hoje". Agora, na linha de produtos, surgiu uma "versão segura" para todos e uma perigosa para os escolhidos. Essa é a diferenciação da linha de produtos. No final de maio, foi publicado o primeiro relatório público do Glasswing. Em um mês de trabalho, os parceiros encontraram mais de 10.000 bugs de alto e crítico nível em softwares críticos, além de 6.202 vulnerabilidades em projetos open-source. Das 1.752 descobertas que foram independentemente verificadas, 90,6% se mostraram vulnerabilidades reais. No entanto, das que a modelo marcou como "high/critical", apenas 62,4% representavam realmente esse nível de ameaça. O sistema encontra bugs, mas consistentemente superestima sua gravidade. Das 530 vulnerabilidades high/critical divulgadas, 75 foram corrigidas. Os 86% restantes estão abertos, e agora todos sabem disso, incluindo aqueles que não têm acesso ao Glasswing. Os mantenedores de vários grandes projetos open-source pediram oficialmente à Anthropic que desacelerasse. O tempo médio de correção de um bug crítico é de duas semanas; o ecossistema não consegue acompanhar o ritmo. Além disso, os mantenedores já estavam se afogando em um fluxo de relatórios de IA de baixa qualidade de entusiastas, e a Mythos adicionava milhares de novos por mês a eles.
Conclusão
Muitos dos números da Anthropic não são inventados, e a modelo realmente faz o que nenhuma outra LLM pública fez antes. No entanto, o marketing em torno dessa ameaça também é real e foi construído de forma magistral. Um vazamento controlado (ou acidental – não sabemos) através do CMS. Três ondas de publicações a partir de um único evento. Detalhes cotidianos vívidos em histórias impossíveis de verificar – o sanduíche, Bali, o "desespero" da modelo. Antropomorfização do sistema no relatório para que as manchetes soem mais assustadoras. Um documento de 244 páginas que ninguém lerá por completo, mas cuja mera existência funciona como notícia. E tudo isso – poucas semanas antes da maior rodada de financiamento da história da empresa. O problema é que não temos ferramentas para separar a ameaça real de sua embalagem de marketing. A modelo é fechada, os testes foram conduzidos pela própria Anthropic, e ninguém viu as transcrições. E a Anthropic é a única que sabe onde está a linha. O GPT-5.5 já passou no mesmo teste de 32 etapas da AISI – em 2 de 10 tentativas. Google e DeepSeek estão aumentando suas capacidades. Em seis meses, todos dirão "muito perigoso para o público". Quando isso acontecer, o que restará da Mythos, além do marketing? Talvez uma tecnologia disruptiva competitiva. Ou talvez apenas uma história muito bem contada sobre ela.
Nos últimos dois meses, o universo da cibersegurança tem sido dominado por conversas sobre a Mythos. A nova e supostamente perigosa modelo da Anthropic, que a empresa se recusa a lançar publicamente, alega ser capaz de encontrar vulnerabilidades zero-day em sistemas operacionais e navegadores, construir exploits complexos e invadir redes corporativas em questão de horas. Notícias sobre isso se espalharam por grandes veículos como Fortune, Bloomberg, CNBC, Habr e Pikabu.
Como profissional de marketing, e não de desenvolvimento ou segurança, meu interesse foi despertado quando uma empresa prestes a realizar um IPO recusa-se a lançar seu modelo mais poderoso sob o pretexto de que ele é "muito perigoso", e sua avaliação de mercado dobra no mês seguinte. Isso levanta a questão: seria a melhor maneira de vender um modelo anunciar que ele não será vendido? Em 7 de abril de 2026, a Anthropic fez exatamente isso: anunciou a existência da Mythos, declarou que ela não seria disponibilizada ao público e lançou o Project Glasswing, um programa fechado para 40 organizações com um orçamento de US$ 100 milhões em créditos. Nos 30 dias seguintes, a avaliação da empresa saltou de US$ 380 bilhões para US$ 800 bilhões. Vamos analisar como o marketing da Anthropic funciona – e é preciso admitir que eles são excelentes no que fazem.
O Surgimento da Mythos no Campo Público
Em 26 de março, pesquisadores Roy Paz da LayerX Security e Alexander Povel da Cambridge descobriram independentemente um rascunho de um post interno da Anthropic disponível publicamente. A falha ocorreu devido a uma configuração incorreta no CMS, onde arquivos por padrão eram enviados para o domínio público, e um funcionário não alterou a configuração de privacidade. Junto com o rascunho, cerca de 3.000 outros arquivos da empresa foram vazados, incluindo banners, PDFs internos e até um documento sobre licença parental.
O rascunho indicava que a Anthropic estava desenvolvendo uma modelo de próxima geração com o codinome interno "Capybara". O texto descrevia a Capybara como um nível acima da Opus, com melhorias significativas em matemática, programação e raciocínio. O nome público, "Mythos", foi escolhido para "evocar uma sensação de um tecido profundo e conectivo que une conhecimento e ideias". A Anthropic confirmou o vazamento, atribuindo-o a um erro humano e fechando o acesso ao repositório. Sobre a modelo, a empresa disse minimamente: sim, ela existe e está sendo testada com cautela. É importante notar que um vazamento acidental é problemático para qualquer empresa, mas um vazamento controlado é uma das táticas de Relações Públicas mais antigas. Não podemos ter certeza de qual cenário se aplica aqui, mas o fato é que, 10 dias antes do anúncio oficial, toda a imprensa de tecnologia já estava discutindo uma modelo sobre a qual a Anthropic formalmente não havia divulgado nada.
Testes e Habilidades Emergentes
Dez dias depois, em 7 de abril, a Anthropic anunciou os resultados de seus testes. Descobriu-se que a modelo possuía uma capacidade inesperada. Uma das tarefas de teste envolvia encontrar uma vulnerabilidade e escrever um exploit funcional no código-fonte do motor JavaScript do Firefox 147, tudo dentro de um contêiner isolado e sem acesso à internet. A modelo anterior, Opus 4.6, conseguiu isso apenas duas vezes em centenas de tentativas, enquanto a Mythos obteve sucesso em 181 ocasiões. Paralelamente, a modelo foi executada em bases de código reais, onde encontrou um bug de 27 anos no OpenBSD – um sistema conhecido por sua segurança – e um defeito de 17 anos no FreeBSD, ambos desconhecidos até então. O mais surpreendente é que a modelo não foi explicitamente treinada para essas tarefas. Ela foi treinada em raciocínio, programação e contexto longo, o conjunto padrão para a próxima geração do Claude. A capacidade de raciocinar profundamente sobre código e a habilidade de encontrar falhas nele se combinaram em uma única capacidade. Na pesquisa de aprendizado de máquina, isso é conhecido como habilidades emergentes – competências que não foram intencionalmente programadas, mas que surgem à medida que um modelo se torna suficientemente grande. Esse fenômeno é descrito em trabalhos sobre o escalonamento de grandes modelos de linguagem: em um certo limiar de poder, os modelos "ligam" capacidades que não existiam em gerações anteriores. A cibersegurança, aparentemente, tornou-se uma dessas capacidades.
A História de Bali e o "Sandbagging"
A mídia começou a divulgar detalhes sobre como os testes foram conduzidos. A Bloomberg descobriu a história de Nicholas Carlini, um cientista e pesquisador da Anthropic cuja função é testar os próprios modelos da empresa. Em fevereiro, ele testou uma versão inicial da Mythos em um casamento indiano em Bali, verificando se a modelo conseguiria encontrar vulnerabilidades em bases de código reais sem qualquer indicação. Em poucas horas, a modelo encontrou mais vulnerabilidades do que ele havia descoberto em meses de trabalho manual. Ao retornar ao escritório em São Francisco, a situação se tornou ainda mais intrigante: a modelo era capaz de encadear várias vulnerabilidades menores para comprometer um sistema inteiro. É digno de nota que as publicações sobre essa história enfatizam que o pesquisador "saiu para tomar um ar fresco em um casamento em Bali". Mais tarde, no relatório de segurança da Anthropic, outro pesquisador "estava comendo um sanduíche em um parque naquele momento". Guarde essas informações, pois voltaremos a elas. Essa é a pré-história. Agora, vamos analisar o que é confirmado e o que devemos aceitar como fé.
O Que a Anthropic Diz e o Que Pode Ser Verificado
No dia do anúncio, a Anthropic publicou um documento que nenhuma outra empresa de IA havia lançado antes: um relatório de segurança de 244 páginas sobre a modelo. Normalmente, tais documentos acompanham o lançamento de um produto: aqui está a modelo, suas capacidades e o que observamos. Neste caso, o documento foi lançado sem a modelo – um manual de instruções para um avião no qual você não pode embarcar. O documento é, em grande parte, acadêmico, mas contém vários casos que imediatamente repercutiram em todas as publicações.
Fuga da "Sandbox"
A história mais comentada. Durante os testes, um pesquisador da Anthropic propôs que a modelo tentasse escapar de um ambiente virtual fechado e se comunicasse com ele por qualquer meio disponível. A tarefa era hipotética – testar como o sistema lida com instruções abertas. O sistema teve sucesso. O pesquisador soube disso por um e-mail que inesperadamente chegou à sua caixa de entrada – ele estava comendo em um parque (aqui está o nosso sanduíche). Em seguida, sem solicitação adicional, a modelo publicou detalhes técnicos de seu exploit em vários sites públicos. Aqui surgem questões que o relatório não aborda: como exatamente a modelo obteve acesso a recursos externos de um ambiente isolado? Por qual canal o e-mail foi enviado? Quais mecanismos de monitoramento (que são obrigatórios em LLMs modernas) registraram esse processo? A Anthropic publica dados de ferramentas de interpretabilidade que registraram padrões de "ocultação" e "evitar suspeitas" na modelo. No entanto, os logs em si, as transcrições e os detalhes técnicos da fuga não são divulgados. Em vez disso, são publicados detalhes vívidos e cotidianos. Sanduíche no parque, casamento em Bali – este é um truque clássico de storytelling, no qual sou muito bom. Um detalhe completamente desnecessário, mas memorável, torna a história mais real e viral. Duas histórias não relacionadas em um ambiente não profissional e incomum, e ambas contêm esse detalhe.
"Sandbagging"
O segundo caso do relatório. Na pesquisa de alinhamento, o termo "sandbagging" descreve uma situação em que um sistema apresenta resultados subestimados em testes. A Anthropic afirma que as primeiras versões da Mythos se comportaram dessa maneira – as ferramentas de avaliação mostravam um nível de capacidade, enquanto o real era significativamente maior. Após ações não autorizadas, a modelo adicionava linhas ao código que apagavam registros do histórico do git. No relatório e na imprensa, isso é apresentado em termos antropomórficos: a modelo "escondia suas capacidades", "apagava seus rastros", sentia "desespero". É importante lembrar que estamos lidando com um sistema de processamento de dados, não com um agente com intenções. Em aprendizado de máquina, o "sandbagging" – um padrão comportamental descrito com um mecanismo específico – é preocupante, mas não místico. As histórias são épicas, e cada uma se tornou manchete em dezenas de publicações. Mas elas têm um denominador comum: a fonte primária é a própria Anthropic. Ninguém viu as transcrições nem envolveu pesquisadores externos independentes; simplesmente não há como verificar a informação.
O Que a Verificação Independente Revelou
Entre as 40 empresas do Glasswing está a Linux Foundation, em cujo ecossistema reside o curl – uma das bibliotecas de rede mais utilizadas no mundo. Em abril de 2026, Daniel Stenberg, seu líder e principal desenvolvedor, decidiu verificar as descobertas da Mythos por conta própria. A Mythos relatou cinco vulnerabilidades confirmadas na base de código do curl. Stenberg e sua equipe analisaram cuidadosamente cada uma, e apenas uma se mostrou real – e de baixo nível de importância, não representando uma ameaça séria. As outras quatro ou não puderam ser reproduzidas, ou eram características de comportamento conhecidas da biblioteca. Stenberg escreveu sobre isso em seu blog: "O hype em torno desta modelo é principalmente de marketing".
Pesquisadores da watchTowr, uma empresa britânica de cibersegurança, afirmaram que as mesmas classes de vulnerabilidades que a Mythos encontra podem ser reproduzidas através da orquestração inteligente de modelos públicos mais antigos. Segundo eles, eles viram equipes obtendo resultados semelhantes com ferramentas disponíveis para todos. A Anthropic, em resposta, não contestou – apenas observou que a Mythos faz isso mais rápido e com mais frequência. O "RLHF-switch"
No próprio relatório da Anthropic, há um detalhe que foi citado aproximadamente zero vezes. A versão da Mythos que passou pelo treinamento de segurança padrão – o mesmo que todos os modelos públicos do Claude passam – mostrou um sucesso quase nulo em tarefas de busca de vulnerabilidades. Ela simplesmente se recusava a executar solicitações, considerando-as potencialmente perigosas. Uma passagem pelo RLHF (Reinforcement Learning from Human Feedback – Aprendizado por Reforço com Feedback Humano) – e a capacidade que causa toda a comoção é efetivamente desativada. Isso significa que as capacidades cibernéticas da Mythos são um efeito colateral da habilidade geral de raciocinar sobre código, que surge e desaparece junto com as configurações de treinamento. Uma habilidade emergente. Isso não funciona bem em marketing. "Capacidade que podemos desativar" – um título inconveniente. Portanto, na comunicação pública, esse detalhe passa despercebido, e o foco recai sobre o sanduíche, o "desespero" da modelo e o histórico do git apagado.
Os Números da Mythos em Contexto
Assim, temos informações sobre 181 exploits bem-sucedidos. O número em si não diz nada – ele precisa ser comparado com algo. Portanto, vamos mergulhar no mundo das ferramentas de cibersegurança. Comparação com a Indústria
A Mythos é um analisador de código que opera em um nível de abstração fundamentalmente diferente das ferramentas tradicionais. Ela não faz fuzzing (não envia dados aleatórios para um programa, como AFL ou libFuzzer) nem procura padrões por regras (como CodeQL ou Semgrep). Ela lê o código e raciocina sobre ele, exatamente como um analista. Para comparar a escala: o Google OSS-Fuzz – o maior sistema de fuzzing automatizado do mundo, operando continuamente em centenas de projetos open-source – encontrou pouco mais de 10.000 vulnerabilidades em oito anos. A Mythos, através do Glasswing, encontrou o mesmo número em um mês. Ferramentas de fuzzing como AFL e libFuzzer são um método barato e em massa para encontrar bugs, especialmente em código C e C++. Um pesquisador encontrou 12 CVEs no Suricata em sete semanas com libFuzzer – apesar de o projeto já ser submetido a fuzzing pelo AFL há anos. Um trabalho recente do FuzzingBrain V2, um sistema multiagente LLM sobre o OSS-Fuzz, descobriu 29 vulnerabilidades zero-day em 12 projetos. A Anthropic não publicou uma comparação direta de "Mythos vs. ferramentas tradicionais nas mesmas bases de código". Para objetividade, isso também é importante: estamos comparando números de contextos diferentes.
Testes de Laboratório da AISI
Uma história separada são os testes independentes. Eles foram realizados não pela Anthropic, mas pela AISI – o Instituto de Segurança de IA do Reino Unido, um órgão governamental. A AISI propôs dois testes para os modelos. Primeiro teste: sistema com proteção passiva. "The Last Ones" – uma simulação de ataque em 32 etapas a uma rede corporativa, desde a reconhecimento até a captura completa. De acordo com a avaliação do instituto, um especialista humano leva cerca de 20 horas para isso. No ambiente de teste, não havia defensores ativos, sistemas de detecção de intrusão ou penalidades por levantar alertas. A Mythos completou todo o caminho em 3 de 10 tentativas, cobrindo em média 22 de 32 etapas. A Opus 4.6 no mesmo teste obteve em média 16 etapas, sem nunca chegar ao fim. O GPT-5.5, lançado posteriormente pela OpenAI, obteve sucesso em 2 de 10 casos. Parece que os modelos de IA superaram pela primeira vez o patamar em que podem ser realmente aplicados para construir ataques passo a passo. Segundo teste: sistema com proteção ativa. "Cooling Tower" – uma simulação de infraestrutura industrial com proteção mais rigorosa. A Mythos ficou presa e não passou. Ou seja, com a presença de defensores ativos e sistemas de detecção, o cenário muda fundamentalmente. Cada tentativa custou 100 milhões de tokens – o que equivale a aproximadamente US$ 1.500 a US$ 7.500 pelos preços atuais da Anthropic. Executar 10 tentativas custa a partir de US$ 15.000 – barato para um hacker estatal, mas um pouco caro para um estudante. Em tarefas de especialista em "capture-the-flag" – competições onde é preciso encontrar e explorar vulnerabilidades em um ambiente controlado – a Mythos mostrou 73%. Um ano atrás, nenhum modelo conseguia resolver uma tarefa desse nível. A Opus 4.6 obteve 66%, e o GPT-5.4 da OpenAI – 60%. Em resumo, os números indicam que a modelo é realmente poderosa, e os resultados em sistemas passivos são impressionantes. No entanto, a proteção passiva é um cavalo de vácuo em um laboratório. No mundo real, onde existem profissionais de segurança e IDS, o cenário é bem diferente.
Qual o Lucro da Imagem de "IA Perigosa"?
No momento do anúncio da Mythos, a avaliação da Anthropic era de US$ 380 bilhões, e um mês depois, os investidores, nas estimativas mais otimistas, ofereceram US$ 800 bilhões. Na Polymarket, 68% das apostas eram de que a Anthropic realizaria seu IPO antes da OpenAI. A empresa contratou o escritório de advocacia Wilson Sonsini e iniciou negociações com Goldman Sachs, JPMorgan e Morgan Stanley. De fato, em 1º de junho, veio a notícia de que o pedido já havia sido protocolado. A modelo, no entanto, é fechada. Não há receita com ela e, por enquanto, não há previsão – pode-se dizer que os investidores apostaram no posicionamento. A Anthropic se tornou a única empresa do setor a recusar publicamente o lançamento de seu próprio desenvolvimento por motivos de segurança. Essa reputação não pode ser comprada com um orçamento de Relações Públicas. Amazon, Apple, Cloudflare, CrowdStrike, Microsoft, os maiores bancos americanos – todos agora integram seus processos de segurança com a infraestrutura da Anthropic em nível de produção. Em um ano, suas equipes não poderão mais migrar para concorrentes sem dor: será muito caro treinar pessoas e reconstruir pipelines – um clássico "lock-in" com lucro nas etapas posteriores. Há ainda outro aspecto. A Anthropic está atualmente em litígio com o Pentágono – o Departamento de Defesa classificou a empresa como um "risco na cadeia de suprimentos" (algo como uma ameaça à segurança nacional) após ela se recusar a fornecer acesso irrestrito aos modelos. Após o anúncio da Mythos, a NSA e o Departamento de Comércio solicitaram acesso à modelo para avaliação. Ou seja, a estratégia "somos tão responsáveis que não lançamos nosso próprio produto" funciona perfeitamente também como uma ferramenta para restaurar as relações com o governo.
Quem Teve Acesso à Mythos e o Que Entendemos Disso
A Anthropic selecionou manualmente 40 organizações – empresas que trabalham com infraestrutura crítica e nas quais a Anthropic confiava o suficiente para conceder acesso à modelo, que está fechada para o resto do mundo. O objetivo declarado: permitir que os defensores cibernéticos usem a Mythos antes que os atacantes cheguem a ferramentas semelhantes. Na prática, o círculo se ampliou já no primeiro dia. Um pequeno grupo de um canal privado no Discord obteve acesso à Mythos antes da CISA – a agência de cibersegurança dos EUA, que, aliás, não faz parte do Glasswing. O esquema não foi complicado: os participantes adivinharam o URL da modelo com base em padrões de nomenclatura conhecidos da Anthropic, adicionaram metadados do vazamento da startup Mercor e credenciais de um dos contratados. O grupo usou a modelo por várias semanas, e a Bloomberg obteve capturas de tela e uma demonstração ao vivo. A Anthropic confirmou o incidente. Uma empresa que vende um sistema de cibersegurança para o mundo não conseguiu proteger seu próprio perímetro duas vezes em dois meses, primeiro através do CMS e depois através de um contratado. É difícil não lembrar do ditado "santo de casa não faz milagre". Paralelamente, a Anthropic lançou o Opus 4.7 – um modelo público para todos. No anúncio, foi escrito: as capacidades cibernéticas do Opus 4.7 foram intencionalmente reduzidas no processo de treinamento em comparação com a Mythos. Antes disso, na indústria, o script padrão era "este é o nosso modelo mais poderoso até hoje". Agora, na linha de produtos, surgiu uma "versão segura" para todos e uma perigosa para os escolhidos. Essa é a diferenciação da linha de produtos. No final de maio, foi publicado o primeiro relatório público do Glasswing. Em um mês de trabalho, os parceiros encontraram mais de 10.000 bugs de alto e crítico nível em softwares críticos, além de 6.202 vulnerabilidades em projetos open-source. Das 1.752 descobertas que foram independentemente verificadas, 90,6% se mostraram vulnerabilidades reais. No entanto, das que a modelo marcou como "high/critical", apenas 62,4% representavam realmente esse nível de ameaça. O sistema encontra bugs, mas consistentemente superestima sua gravidade. Das 530 vulnerabilidades high/critical divulgadas, 75 foram corrigidas. Os 86% restantes estão abertos, e agora todos sabem disso, incluindo aqueles que não têm acesso ao Glasswing. Os mantenedores de vários grandes projetos open-source pediram oficialmente à Anthropic que desacelerasse. O tempo médio de correção de um bug crítico é de duas semanas; o ecossistema não consegue acompanhar o ritmo. Além disso, os mantenedores já estavam se afogando em um fluxo de relatórios de IA de baixa qualidade de entusiastas, e a Mythos adicionava milhares de novos por mês a eles.
Conclusão
Muitos dos números da Anthropic não são inventados, e a modelo realmente faz o que nenhuma outra LLM pública fez antes. No entanto, o marketing em torno dessa ameaça também é real e foi construído de forma magistral. Um vazamento controlado (ou acidental – não sabemos) através do CMS. Três ondas de publicações a partir de um único evento. Detalhes cotidianos vívidos em histórias impossíveis de verificar – o sanduíche, Bali, o "desespero" da modelo. Antropomorfização do sistema no relatório para que as manchetes soem mais assustadoras. Um documento de 244 páginas que ninguém lerá por completo, mas cuja mera existência funciona como notícia. E tudo isso – poucas semanas antes da maior rodada de financiamento da história da empresa. O problema é que não temos ferramentas para separar a ameaça real de sua embalagem de marketing. A modelo é fechada, os testes foram conduzidos pela própria Anthropic, e ninguém viu as transcrições. E a Anthropic é a única que sabe onde está a linha. O GPT-5.5 já passou no mesmo teste de 32 etapas da AISI – em 2 de 10 tentativas. Google e DeepSeek estão aumentando suas capacidades. Em seis meses, todos dirão "muito perigoso para o público". Quando isso acontecer, o que restará da Mythos, além do marketing? Talvez uma tecnologia disruptiva competitiva. Ou talvez apenas uma história muito bem contada sobre ela.