Semana de Segurança 2622: Eficiência do Claude Mythos Segundo a Cloudflare

Semana de Segurança 2622: Eficiência do Claude Mythos Segundo a Cloudflare

A Cloudflare avaliou a IA Claude Mythos da Anthropic, destacando sua capacidade de encontrar vulnerabilidades e até criar exploits. O artigo explora como a Cloudflare adaptou a IA para otimizar a detecção de falhas e discute a importância de fortalecer a segurança do software para mitigar riscos.

MundiX News·26 de maio de 2026·5 min de leitura·👁 2 views

Semana de Segurança 2622: Eficiência do Claude Mythos Segundo a Cloudflare

Na última semana, a Cloudflare compartilhou suas impressões sobre o desempenho da IA Claude Mythos. Desenvolvida pela Anthropic, a modelo está atualmente disponível por convite, como parte do projeto Project Glasswing. Uma das razões para esse processo de teste fechado é a alta eficiência do assistente de IA na busca e detecção de vulnerabilidades. Confirmações independentes dessa eficiência já foram publicadas anteriormente, como pela equipe de desenvolvimento do navegador Mozilla Firefox.

Ao contrário do relatório da Mozilla, a Cloudflare não fornece exemplos de vulnerabilidades encontradas em sua publicação. A empresa apenas menciona que o Mythos foi testado na base de código da Cloudflare e que vulnerabilidades foram de fato descobertas. No entanto, a Cloudflare vai além da simples afirmação de que é necessária uma infraestrutura adequada para o trabalho eficiente da modelo de IA, descrevendo em detalhes as etapas em que a busca automatizada por vulnerabilidades é dividida dentro dessa infraestrutura.

De acordo com o relatório da Cloudflare, além de detectar erros (o que outras modelos de IA também conseguem fazer), o Mythos é capaz de construir uma cadeia de exploração de erros no código e, como resultado, pode fornecer uma prova da periculosidade de um bug na forma de um exploit completo. Isso melhora a relação entre "sinal" (erros realmente perigosos e exploráveis no software) e "ruído" (problemas não exploráveis ou irrelevantes). A Cloudflare menciona a possibilidade de ajustar essa relação "sob demanda do cliente": eles configuraram a modelo especificamente para que os especialistas tenham mais informações para avaliação posterior, mesmo que isso leve a um aumento na quantidade de informações inúteis.

Mesmo uma modelo eficiente não funcionará se for simplesmente direcionada a um repositório com a sugestão de "encontrar algo lá". Ao discutir os requisitos para a infraestrutura em torno do assistente de IA, a Cloudflare modelou o trabalho de um pesquisador de segurança "humano". Tal especialista não tenta analisar todo o código do projeto de uma vez, mas se concentra em elementos individuais, seja uma função específica, uma classe de vulnerabilidades ou um mecanismo de proteção.

Como resultado, a seguinte "regra de vida da IA" é proposta para análise de código: estreitamento intencional da frente de trabalho, mas com a capacidade de realizar muitos estudos em paralelo. Os autores da publicação também mencionam métodos interessantes para aumentar a eficiência do trabalho com IA. Por exemplo, as solicitações "existem erros neste código" e "um invasor pode chegar ao bug para explorá-lo" obviamente levarão a respostas diferentes. Faz sentido fazer essas solicitações separadamente, e não todas de uma vez - há mais chances de obter uma resposta adequada para ambas. De particular interesse é o procedimento proposto para verificar as conclusões de uma modelo com a ajuda de outra. No entanto, não é necessário confrontar modelos diferentes: o controle automatizado pode ser realizado pela mesma modelo, apenas com um conjunto diferente de prompts.

A infraestrutura da Cloudflare é mais ou menos assim. Na primeira etapa, o repositório é analisado e dividido em elementos individuais, os parâmetros importantes do código são identificados. Um conjunto de tarefas é criado, cada uma das quais visa encontrar vulnerabilidades que potencialmente levam a ataques de um tipo específico. O resultado da tarefa é verificado por um agente de controle separado. Na etapa Gapfill, as seções de código que não foram afetadas nas etapas anteriores são destacadas: isso combate a tendência da IA a entrar em loop, quando a modelo procura repetidamente os tipos de vulnerabilidades já descobertos. Os resultados do trabalho da IA são agrupados por fonte comum do problema, e ele é adicionalmente testado quanto à realidade da exploração. Outra cadeia de feedback lança novamente a busca por vulnerabilidades semelhantes às encontradas, se sua periculosidade prática for comprovada. Finalmente, um relatório é gerado para estudo posterior.

O relatório da Cloudflare também aborda o problema de corrigir vulnerabilidades em uma situação em que elas se tornaram mais fáceis de detectar. Um passo lógico, mas incorreto, seria aumentar a velocidade de lançamento de patches. Isso, na opinião da Cloudflare, traz seus próprios problemas, pois cada patch precisa ser testado e nem sempre isso pode ser feito com velocidade suficiente. Consequentemente, aumenta o perigo de que patches apressados levem ao aparecimento de outros bugs. Em vez disso, é proposto focar no desenvolvimento de sistemas de proteção abrangentes dentro do software ou serviço: projetar a arquitetura do aplicativo de forma que os bugs detectados sejam mais difíceis de explorar em princípio. Quanto mais complexa for a exploração, mais tempo o desenvolvedor terá para corrigir o problema.

A eficiência das modelos de IA na busca por vulnerabilidades pode ser usada para fins maliciosos, ou melhor, já está sendo usada. A distribuição fechada das ferramentas mais eficazes só pode atrasar o momento em que modelos igualmente eficazes aparecerão do lado dos invasores. A Cloudflare observa que, embora o Mythos tenha restrições embutidas, capazes de reduzir a probabilidade de desenvolvimento rápido de exploits, elas não funcionam bem. Uma simples alteração na formulação da solicitação ou mesmo uma nova solicitação em um momento diferente permitiu contornar essas restrições. A ideia de melhorar a proteção do sistema no software, a ausência da qual pode levar a incidentes catastróficos, parece ainda mais importante. Indiretamente, esse pensamento também se reflete no relatório do navegador Firefox: ele menciona um caso em que, após receber vários relatórios sobre vulnerabilidades do mesmo tipo, os desenvolvedores não as corrigiram uma por uma, mas fizeram uma alteração arquitetural que tornou a exploração desses erros impossível. Posteriormente, ao escanear o código com o Mythos, a Mozilla viu muitas tentativas da IA de explorar exatamente esse tipo de vulnerabilidade, e todas foram malsucedidas.

O que mais aconteceu

  • Pesquisadores da Kaspersky Lab publicaram uma análise detalhada da vulnerabilidade CVE-2026-3102 na ferramenta ExifTool. Os autores do artigo usaram um problema anterior de 2021 como ponto de partida. A vulnerabilidade pode, teoricamente, levar à execução de código arbitrário em computadores rodando Mac OS.
  • Outro artigo analisa as últimas técnicas do grupo Cloud Atlas, que visa organizações na Rússia e na Bielorrússia.
  • Um novo ataque em massa em pacotes no repositório NPM levou à comprometimento de mais de 300 lançamentos, incluindo projetos com dezenas de milhões de downloads. O ataque visa principalmente desenvolvedores de software, e uma forma incomum de exfiltração de dados privados foi registrada: se o código malicioso encontrar chaves de acesso ao repositório no GitHub, as informações roubadas são carregadas diretamente lá.
  • A Microsoft corrigiu duas vulnerabilidades de dia zero no mecanismo de proteção do Windows Defender com um patch fora do cronograma.

📤 Compartilhar & Baixar