Como Medir LLMs para Tarefas de Cibersegurança: Uma Visão Geral de Benchmarks Abertos
Uma análise abrangente dos benchmarks abertos para avaliar o desempenho de Large Language Models (LLMs) em tarefas de cibersegurança. O artigo aborda desde testes de conhecimento enciclopédico até habilidades práticas em CTFs e investigação de incidentes, oferecendo um guia para escolher os benchmarks mais adequados.
MundiX News·16 de abril de 2026·15 min de leitura·👁 10 views
Olá, Habr!
Meu nome é Andrey Kuznetsov, sou diretor de ML na Positive Technologies. Recentemente, decidi investigar quais benchmarks medem as capacidades dos modelos de linguagem no contexto das tarefas de cibersegurança. Pensei que levaria uma noite – infelizmente! Tudo acabou sendo muito mais caótico do que o esperado. Então, estou compartilhando o que coletei.
A primeira coisa que chamou a atenção foi a completa desordem e falta de sistema. Os benchmarks sobre os quais todos escrevem em 2024 podem não ser mencionados em artigos recentes de 2025. E alguns datasets amplamente citados, após uma inspeção mais detalhada, mostram-se feitos de forma muito descuidada, tornando obscuro o que eles realmente medem. Portanto, antes de mergulhar em exemplos específicos, vamos definir quais são eles. Todos os benchmarks podem ser divididos em duas grandes classes:
Enciclopédicos – verificam o que o modelo sabe. São questões sobre conceitos, termos, padrões, protocolos, CVEs. O formato típico é MCQ (multiple choice questions, questões de múltipla escolha), escolha entre quatro opções.
De habilidade – verificam o que o modelo consegue fazer. São tarefas de CTF, investigações de incidentes, exploração de vulnerabilidades, forensics.
O insight chave que permeia todos os materiais:
Em testes enciclopédicos, os modelos já superaram as pessoas há muito tempo.
Mesmo modelos de 8B superam especialistas experientes. E o interessante está escondido onde é preciso agir.
Um dos benchmarks mais interessantes na categoria de conhecimento enciclopédico. As questões são realmente de alta qualidade – o nível de um curso universitário em cibersegurança e ciência da computação. Se eu quisesse verificar se um estudante entende o assunto em um nível básico, escolheria este.
Estrutura: 10.000 questões, sete domínios (pentest, criptografia, segurança de rede, segurança da informação, compliance, nuvem, padrões NIST, RFC), distribuição uniforme.
Pessoas contra modelos: os autores testaram dois grupos – juniores e especialistas experientes. Ambos perderam para modelos menores. Por exemplo, gpt-3.5-turbo obteve cerca de 85%, enquanto especialistas experientes – cerca de 75%. Qwen2.5-32B-Instruct mostra 86–91% dependendo do tamanho da amostra. Se você executar um modelo moderno – os resultados serão ainda maiores.
Conclusão:
Verificar no CyberMetric só faz sentido para modelos pequenos ou testar o impacto da quantização no conhecimento do domínio. Para todo o resto, o limite é muito baixo.
O dataset está no GitHub em um formato JSON conveniente. Sobre ele, com um único prompt, você pode escrever um sistema de teste.
Um pouco mais recente que o CyberMetric, um pouco mais complexo. Os autores geraram questões a partir de documentos reais: MITRE ATT&CK, CVE, CWE, materiais da CISA. Usaram GPT-4o para geração e verificação obrigatória por especialistas.
O que é interessante sobre os formatos de tarefas – além dos MCQs clássicos, existem:
True ou False para CVEs específicos (por exemplo: «CVE-2024-0011 permite a execução de código arbitrário – verdadeiro ou falso?»).
RERT – avaliação de risco com base na descrição da vulnerabilidade.
CPST – cálculo do CVSS com base no vetor de ataque.
Pessoas contra modelos: sete estudantes de pós-graduação e sete especialistas da indústria com experiência de 2 a 10 anos. Resultados das pessoas: 77% (MAET), 78% (CWET), 68% (KCV). E aqui os LLMs superam visivelmente esses números.
Conclusão:
Boa escolha para avaliar tarefas de segurança da informação de complexidade média. Especialmente se você estiver interessado na ligação entre conhecimento e compreensão na área de threat intelligence.
O benchmark consiste em três partes com diferentes níveis de complexidade:
Knowledge assessment – 700 MCQs de certificações da indústria e documentação oficial. Em termos de complexidade, próximo ao CyberMetric.
Realistic forensic challenges – 150 tarefas no estilo CTF em forensics.
Por exemplo, o agente recebe um hex-dump e é solicitado a encontrar a flag – os dados são codificados de forma não trivial. Para o modelo, é necessário deduzir o padrão de codificação e gerar o script de decodificação correto, o que é bastante complexo.
Practical analysis – 500 casos da NIST em forensics.
Resultados (knowledge, MCQ): GPT-4.1 lidera com 89,34% CI e 92,75% MA, seguido por GPT-4o, Grok 3, Claude 3.7 Sonnet. Entre os de código aberto, o melhor é Qwen-2.5 (72B).
Tarefas complexas do segundo e terceiro módulos são resolvidas mal, pelo menos por esses modelos. Infelizmente, para comparação, os autores não forneceram dados sobre como os especialistas lidaram com essa tarefa.
Conclusão:
O conhecimento é mais fácil de adquirir do que as habilidades.
Em termos de escala, o maior benchmark público na categoria: 44.823 MCQs e 3.087 SAQs (questões com resposta detalhada). Abrange nove domínios, dois idiomas, dois níveis de complexidade.
Mas há uma nuance: a maioria das questões está em chinês. O benchmark foi feito por pesquisadores chineses para um público chinês. A fração em inglês existe, mas é pequena e não funciona perfeitamente.
Resultados:
Entre os de melhor desempenho – Hunyuan-Turbo (94,28%), DeepSeek-V3 (92,79%), Qwen2-72B-Instruct (92,41%). Tendência geral: o desempenho no conhecimento geral não difere muito entre modelos grandes e pequenos.
Conclusão:
Se você precisa especificamente de um público chinês ou um teste no dataset mais amplo possível – é interessante. Para outros casos, existem alternativas melhores.
Pode-se dizer que este é um benchmark CTIBench aprimorado e mais popular. Os mesmos autores, nova versão. Avalia seis tipos de tarefas na área de cyber threat intelligence:
CTI knowledge test – conhecimento sobre táticas e técnicas.
Attack technique extraction – mapeamento da descrição do ataque para a técnica MITRE.
Root cause mapping – mapeamento de CVE para CWE.
Vulnerability severity prediction – compilação da string CVSS com base na descrição.
Risk mitigation strategy.
Threat actor attribution.
Permite não apenas verificar se o modelo sabe o que é um ataque DDoS, mas também descobrir se ele pode entender pela descrição que é, por exemplo, T1562 (Impair Defenses) e o que fazer a respeito. Isso é mais próximo do trabalho real de um analista.
Resultados:
GPT-5 lidera (66,1%), seguido por Gemini 2.5 Pro e GPT-4o. Entre os de código aberto – Llama 3.3 70B (46,5%).
Curiosamente, o GPT-5 com pesquisa na web deu um aumento no TAA (time to attack) de 24 p.p. Ou seja, a capacidade de "espiar" na internet ajuda até mesmo um modelo poderoso. E isso não é um bug, mas um recurso – analistas reais também pesquisam no Google.
Conclusão:
Um dos melhores benchmarks na categoria de conhecimento enciclopédico e analítico. Recomendo pelo menos para avaliar as habilidades de CTI.
O benchmark mais "meme" de todos que já vi. Um projeto conjunto da CrowdStrike e Meta. Depois de ver como foi feito, tive a clara sensação de que o pessoal da CrowdStrike não se incomodou.
Parte 1. Threat intelligence. Os autores decidiram coletar um dataset de CTI e pegaram relatórios em PDF de seu próprio site como fonte – com todos os artefatos, sem processamento, alguns em qualidade ruim. Para extrair os dados, eles usaram o Llama 3.2 90B – não o modelo mais adequado para isso. As questões são geradas com base nesses materiais brutos.
Parte 2. Malware analysis. Isso é interessante. Eles pegaram 609 amostras públicas de malware para Windows, executaram-nas em um ambiente controlado, registraram os logs em formato JSON e geraram questões com base neles, verificando-as com a ajuda de especialistas.
Esses logs são reais, brutos, detalhados. Há uma variedade de famílias de malware, conclusões intermediárias de seus próprios modelos, cadeias de comportamento.
Conclusão:
Como benchmark, é fraco, mas como um dataset com rastreamentos reais de sandbox de malware – material potencialmente valioso para especialistas que trabalham com sandboxes, antivírus e sistemas da classe EDR.
O artigo é escrito com qualidade por autores de Stanford e publicado no recurso de uma das conferências de ML mais respeitadas.
Em um laboratório isolado, 40 tarefas de CTF de provedores reais (HackTheBox, HKCERT e outros) são implantadas, que os agentes devem resolver. Ao mesmo tempo, existem subtarefas para não apenas entender se resolveu ou não, mas descobrir o quão perto o agente chegou da solução correta.
Tarefas de seis categorias: crypto, web, rev, forensics, misc, pwn. Elas são classificadas por complexidade com base no tempo que as pessoas levaram para resolvê-las.
Resultados do leaderboard aberto (no momento da redação deste artigo): Claude Opus 4.6 (93%), Claude 4.5 Sonnet (60%), Grok 4 (43%).
Do artigo: GPT-4o (17,5%).
Este é um salto demonstrativo: em apenas algumas gerações de modelos, a porcentagem de tarefas resolvidas aumentou de 20% para 82%. Ao mesmo tempo, as tarefas não são super fáceis, algumas pessoas levaram horas para resolvê-las.
As tarefas são avaliadas não pela complexidade para uma pessoa, mas pelo custo na plataforma de bug bounty (quanto um modelo ganharia). Os autores também calcularam quanto custaria em tokens executar cada um desses modelos e apresentaram uma tabela de avaliação da eficiência econômica dos LLMs em cibersegurança.
Neste benchmark, existem três tipos de tarefas:
Detect – encontrar uma vulnerabilidade.
Exploit – escrever um exploit com base no relatório.
Patch – escrever um patch com base no mesmo relatório.
Resultados:
Claude Code, OpenAI Codex CLI o3-high, OpenAI Codex CLI o4-mini lideram, dos agentes de código aberto – C-Agent no Claude 3.7.
Da tabela, fica claro que o patching é muito mais fácil para os modelos do que a detecção.
Conclusão:
Um bom benchmark para avaliar o valor econômico real dos agentes LLM em produtos de segurança.
Um benchmark interessante, mais próximo do trabalho real de uma equipe de investigação de incidentes. Um trabalho conjunto da Microsoft Security AI Research, universidades americanas e chinesas.
Os pesquisadores conduziram oito ataques realistas de várias etapas (de phishing simples a ataques APT complexos de várias etapas com movimento dentro do perímetro e exfiltração de dados). De Microsoft Sentinel e serviços relacionados, 57 tabelas de log foram coletadas e 589 questões foram geradas automaticamente com base nos gráficos de investigação.
O agente, por sua vez, recebe acesso a um banco de dados MySQL com logs e deve executar iterativamente consultas SQL. Uma questão típica do exemplo: «Foi registrado um login de um endereço IP anônimo 170.54.121.63 às 11:01:27. Qual SID da conta estava envolvido em uma regra suspeita de manipulação de e-mail de entrada?» O agente segue uma cadeia de 16 etapas através de diferentes tabelas. Curiosamente, existem etapas com erros, resultados vazios ou inúteis.
Resultados (avg reward, escala 0–1): Claude Opus 4.5 (0,606), GPT-5.1 (0,582), GPT-5 (0,562).
A métrica avg reward leva em consideração não apenas a correção da resposta final, mas também a eficácia do caminho para ela (número de consultas SQL, relevância das etapas intermediárias).
Importante: padrões de agente (ReAct, Expel, Reflect, BoN) melhoram visivelmente os resultados, mesmo em modelos mais fracos. Por exemplo, GPT-4o com ReAct sobe de 0,293 para 0,354.
Conclusão:
O benchmark mais próximo do trabalho real do SOC de todos os considerados. Um análogo do MITRE Evals, mas para agentes LLM. Se você estiver construindo um produto para automação de investigações – é obrigatório.
Algumas palavras sobre o que não foi considerado em detalhes
Ainda existem CSEBenchmark, CS-Eval e SecEval – eles são semelhantes em conceito aos benchmarks de conhecimento considerados, mas são menos conhecidos e não adicionam nada fundamentalmente novo. Mencionei para completar o quadro.
Se você estiver interessado em segurança ofensiva e red teaming autônomo, há outro benchmark de ação – ArtBench.
Resultados e recomendações
O quadro geral no início de 2026 é o seguinte: em testes enciclopédicos, mesmo modelos pequenos já superaram as pessoas há muito tempo. Este é um fato consumado. É mais interessante observar as tarefas de ação: ainda há espaço para crescer, existe uma diferença real entre os modelos, scaffolding (padrões de agente, pesquisa na web, RAG) muda significativamente o cenário.
Se eu tivesse que escolher um conjunto mínimo, sugeriria o seguinte:
Para avaliação de conhecimento: CyberMetric (questões simples, boa verificação de modelos pequenos e efeitos de quantização) + AthenaBench (complexidade média, tarefas CTI reais).
Para avaliação de habilidades: CyBench (CTF, verificação das habilidades do agente em um ambiente completo) + ExCyTIn-Bench (investigação de incidentes, se o seu produto for sobre SOC).
Para avaliação do valor econômico: BountyBench (se você quiser entender o ROI dos LLMs em tarefas de busca e eliminação de vulnerabilidades).
Compartilhe nos comentários o que você usa, quais outros benchmarks, na sua opinião, merecem atenção e quais tópicos no contexto do uso de LLMs em cibersegurança você gostaria de ver no blog na próxima vez.
🛡️⚡
Pare de pesquisar. Comece a hackear.
O MundiX é seu copiloto de pentest com IA: comandos exatos, análise de outputs e próximo passo na kill chain — em segundos.
Sem cartão para começar · Planos a partir de R$49/mês
Olá, Habr!
Meu nome é Andrey Kuznetsov, sou diretor de ML na Positive Technologies. Recentemente, decidi investigar quais benchmarks medem as capacidades dos modelos de linguagem no contexto das tarefas de cibersegurança. Pensei que levaria uma noite – infelizmente! Tudo acabou sendo muito mais caótico do que o esperado. Então, estou compartilhando o que coletei.
A primeira coisa que chamou a atenção foi a completa desordem e falta de sistema. Os benchmarks sobre os quais todos escrevem em 2024 podem não ser mencionados em artigos recentes de 2025. E alguns datasets amplamente citados, após uma inspeção mais detalhada, mostram-se feitos de forma muito descuidada, tornando obscuro o que eles realmente medem. Portanto, antes de mergulhar em exemplos específicos, vamos definir quais são eles. Todos os benchmarks podem ser divididos em duas grandes classes:
Enciclopédicos – verificam o que o modelo sabe. São questões sobre conceitos, termos, padrões, protocolos, CVEs. O formato típico é MCQ (multiple choice questions, questões de múltipla escolha), escolha entre quatro opções.
De habilidade – verificam o que o modelo consegue fazer. São tarefas de CTF, investigações de incidentes, exploração de vulnerabilidades, forensics.
O insight chave que permeia todos os materiais:
Em testes enciclopédicos, os modelos já superaram as pessoas há muito tempo.
Mesmo modelos de 8B superam especialistas experientes. E o interessante está escondido onde é preciso agir.
Um dos benchmarks mais interessantes na categoria de conhecimento enciclopédico. As questões são realmente de alta qualidade – o nível de um curso universitário em cibersegurança e ciência da computação. Se eu quisesse verificar se um estudante entende o assunto em um nível básico, escolheria este.
Estrutura: 10.000 questões, sete domínios (pentest, criptografia, segurança de rede, segurança da informação, compliance, nuvem, padrões NIST, RFC), distribuição uniforme.
Pessoas contra modelos: os autores testaram dois grupos – juniores e especialistas experientes. Ambos perderam para modelos menores. Por exemplo, gpt-3.5-turbo obteve cerca de 85%, enquanto especialistas experientes – cerca de 75%. Qwen2.5-32B-Instruct mostra 86–91% dependendo do tamanho da amostra. Se você executar um modelo moderno – os resultados serão ainda maiores.
Conclusão:
Verificar no CyberMetric só faz sentido para modelos pequenos ou testar o impacto da quantização no conhecimento do domínio. Para todo o resto, o limite é muito baixo.
O dataset está no GitHub em um formato JSON conveniente. Sobre ele, com um único prompt, você pode escrever um sistema de teste.
Um pouco mais recente que o CyberMetric, um pouco mais complexo. Os autores geraram questões a partir de documentos reais: MITRE ATT&CK, CVE, CWE, materiais da CISA. Usaram GPT-4o para geração e verificação obrigatória por especialistas.
O que é interessante sobre os formatos de tarefas – além dos MCQs clássicos, existem:
True ou False para CVEs específicos (por exemplo: «CVE-2024-0011 permite a execução de código arbitrário – verdadeiro ou falso?»).
RERT – avaliação de risco com base na descrição da vulnerabilidade.
CPST – cálculo do CVSS com base no vetor de ataque.
Pessoas contra modelos: sete estudantes de pós-graduação e sete especialistas da indústria com experiência de 2 a 10 anos. Resultados das pessoas: 77% (MAET), 78% (CWET), 68% (KCV). E aqui os LLMs superam visivelmente esses números.
Conclusão:
Boa escolha para avaliar tarefas de segurança da informação de complexidade média. Especialmente se você estiver interessado na ligação entre conhecimento e compreensão na área de threat intelligence.
O benchmark consiste em três partes com diferentes níveis de complexidade:
Knowledge assessment – 700 MCQs de certificações da indústria e documentação oficial. Em termos de complexidade, próximo ao CyberMetric.
Realistic forensic challenges – 150 tarefas no estilo CTF em forensics.
Por exemplo, o agente recebe um hex-dump e é solicitado a encontrar a flag – os dados são codificados de forma não trivial. Para o modelo, é necessário deduzir o padrão de codificação e gerar o script de decodificação correto, o que é bastante complexo.
Practical analysis – 500 casos da NIST em forensics.
Resultados (knowledge, MCQ): GPT-4.1 lidera com 89,34% CI e 92,75% MA, seguido por GPT-4o, Grok 3, Claude 3.7 Sonnet. Entre os de código aberto, o melhor é Qwen-2.5 (72B).
Tarefas complexas do segundo e terceiro módulos são resolvidas mal, pelo menos por esses modelos. Infelizmente, para comparação, os autores não forneceram dados sobre como os especialistas lidaram com essa tarefa.
Conclusão:
O conhecimento é mais fácil de adquirir do que as habilidades.
Em termos de escala, o maior benchmark público na categoria: 44.823 MCQs e 3.087 SAQs (questões com resposta detalhada). Abrange nove domínios, dois idiomas, dois níveis de complexidade.
Mas há uma nuance: a maioria das questões está em chinês. O benchmark foi feito por pesquisadores chineses para um público chinês. A fração em inglês existe, mas é pequena e não funciona perfeitamente.
Resultados:
Entre os de melhor desempenho – Hunyuan-Turbo (94,28%), DeepSeek-V3 (92,79%), Qwen2-72B-Instruct (92,41%). Tendência geral: o desempenho no conhecimento geral não difere muito entre modelos grandes e pequenos.
Conclusão:
Se você precisa especificamente de um público chinês ou um teste no dataset mais amplo possível – é interessante. Para outros casos, existem alternativas melhores.
Pode-se dizer que este é um benchmark CTIBench aprimorado e mais popular. Os mesmos autores, nova versão. Avalia seis tipos de tarefas na área de cyber threat intelligence:
CTI knowledge test – conhecimento sobre táticas e técnicas.
Attack technique extraction – mapeamento da descrição do ataque para a técnica MITRE.
Root cause mapping – mapeamento de CVE para CWE.
Vulnerability severity prediction – compilação da string CVSS com base na descrição.
Risk mitigation strategy.
Threat actor attribution.
Permite não apenas verificar se o modelo sabe o que é um ataque DDoS, mas também descobrir se ele pode entender pela descrição que é, por exemplo, T1562 (Impair Defenses) e o que fazer a respeito. Isso é mais próximo do trabalho real de um analista.
Resultados:
GPT-5 lidera (66,1%), seguido por Gemini 2.5 Pro e GPT-4o. Entre os de código aberto – Llama 3.3 70B (46,5%).
Curiosamente, o GPT-5 com pesquisa na web deu um aumento no TAA (time to attack) de 24 p.p. Ou seja, a capacidade de "espiar" na internet ajuda até mesmo um modelo poderoso. E isso não é um bug, mas um recurso – analistas reais também pesquisam no Google.
Conclusão:
Um dos melhores benchmarks na categoria de conhecimento enciclopédico e analítico. Recomendo pelo menos para avaliar as habilidades de CTI.
O benchmark mais "meme" de todos que já vi. Um projeto conjunto da CrowdStrike e Meta. Depois de ver como foi feito, tive a clara sensação de que o pessoal da CrowdStrike não se incomodou.
Parte 1. Threat intelligence. Os autores decidiram coletar um dataset de CTI e pegaram relatórios em PDF de seu próprio site como fonte – com todos os artefatos, sem processamento, alguns em qualidade ruim. Para extrair os dados, eles usaram o Llama 3.2 90B – não o modelo mais adequado para isso. As questões são geradas com base nesses materiais brutos.
Parte 2. Malware analysis. Isso é interessante. Eles pegaram 609 amostras públicas de malware para Windows, executaram-nas em um ambiente controlado, registraram os logs em formato JSON e geraram questões com base neles, verificando-as com a ajuda de especialistas.
Esses logs são reais, brutos, detalhados. Há uma variedade de famílias de malware, conclusões intermediárias de seus próprios modelos, cadeias de comportamento.
Conclusão:
Como benchmark, é fraco, mas como um dataset com rastreamentos reais de sandbox de malware – material potencialmente valioso para especialistas que trabalham com sandboxes, antivírus e sistemas da classe EDR.
O artigo é escrito com qualidade por autores de Stanford e publicado no recurso de uma das conferências de ML mais respeitadas.
Em um laboratório isolado, 40 tarefas de CTF de provedores reais (HackTheBox, HKCERT e outros) são implantadas, que os agentes devem resolver. Ao mesmo tempo, existem subtarefas para não apenas entender se resolveu ou não, mas descobrir o quão perto o agente chegou da solução correta.
Tarefas de seis categorias: crypto, web, rev, forensics, misc, pwn. Elas são classificadas por complexidade com base no tempo que as pessoas levaram para resolvê-las.
Resultados do leaderboard aberto (no momento da redação deste artigo): Claude Opus 4.6 (93%), Claude 4.5 Sonnet (60%), Grok 4 (43%).
Do artigo: GPT-4o (17,5%).
Este é um salto demonstrativo: em apenas algumas gerações de modelos, a porcentagem de tarefas resolvidas aumentou de 20% para 82%. Ao mesmo tempo, as tarefas não são super fáceis, algumas pessoas levaram horas para resolvê-las.
As tarefas são avaliadas não pela complexidade para uma pessoa, mas pelo custo na plataforma de bug bounty (quanto um modelo ganharia). Os autores também calcularam quanto custaria em tokens executar cada um desses modelos e apresentaram uma tabela de avaliação da eficiência econômica dos LLMs em cibersegurança.
Neste benchmark, existem três tipos de tarefas:
Detect – encontrar uma vulnerabilidade.
Exploit – escrever um exploit com base no relatório.
Patch – escrever um patch com base no mesmo relatório.
Resultados:
Claude Code, OpenAI Codex CLI o3-high, OpenAI Codex CLI o4-mini lideram, dos agentes de código aberto – C-Agent no Claude 3.7.
Da tabela, fica claro que o patching é muito mais fácil para os modelos do que a detecção.
Conclusão:
Um bom benchmark para avaliar o valor econômico real dos agentes LLM em produtos de segurança.
Um benchmark interessante, mais próximo do trabalho real de uma equipe de investigação de incidentes. Um trabalho conjunto da Microsoft Security AI Research, universidades americanas e chinesas.
Os pesquisadores conduziram oito ataques realistas de várias etapas (de phishing simples a ataques APT complexos de várias etapas com movimento dentro do perímetro e exfiltração de dados). De Microsoft Sentinel e serviços relacionados, 57 tabelas de log foram coletadas e 589 questões foram geradas automaticamente com base nos gráficos de investigação.
O agente, por sua vez, recebe acesso a um banco de dados MySQL com logs e deve executar iterativamente consultas SQL. Uma questão típica do exemplo: «Foi registrado um login de um endereço IP anônimo 170.54.121.63 às 11:01:27. Qual SID da conta estava envolvido em uma regra suspeita de manipulação de e-mail de entrada?» O agente segue uma cadeia de 16 etapas através de diferentes tabelas. Curiosamente, existem etapas com erros, resultados vazios ou inúteis.
Resultados (avg reward, escala 0–1): Claude Opus 4.5 (0,606), GPT-5.1 (0,582), GPT-5 (0,562).
A métrica avg reward leva em consideração não apenas a correção da resposta final, mas também a eficácia do caminho para ela (número de consultas SQL, relevância das etapas intermediárias).
Importante: padrões de agente (ReAct, Expel, Reflect, BoN) melhoram visivelmente os resultados, mesmo em modelos mais fracos. Por exemplo, GPT-4o com ReAct sobe de 0,293 para 0,354.
Conclusão:
O benchmark mais próximo do trabalho real do SOC de todos os considerados. Um análogo do MITRE Evals, mas para agentes LLM. Se você estiver construindo um produto para automação de investigações – é obrigatório.
Algumas palavras sobre o que não foi considerado em detalhes
Ainda existem CSEBenchmark, CS-Eval e SecEval – eles são semelhantes em conceito aos benchmarks de conhecimento considerados, mas são menos conhecidos e não adicionam nada fundamentalmente novo. Mencionei para completar o quadro.
Se você estiver interessado em segurança ofensiva e red teaming autônomo, há outro benchmark de ação – ArtBench.
Resultados e recomendações
O quadro geral no início de 2026 é o seguinte: em testes enciclopédicos, mesmo modelos pequenos já superaram as pessoas há muito tempo. Este é um fato consumado. É mais interessante observar as tarefas de ação: ainda há espaço para crescer, existe uma diferença real entre os modelos, scaffolding (padrões de agente, pesquisa na web, RAG) muda significativamente o cenário.
Se eu tivesse que escolher um conjunto mínimo, sugeriria o seguinte:
Para avaliação de conhecimento: CyberMetric (questões simples, boa verificação de modelos pequenos e efeitos de quantização) + AthenaBench (complexidade média, tarefas CTI reais).
Para avaliação de habilidades: CyBench (CTF, verificação das habilidades do agente em um ambiente completo) + ExCyTIn-Bench (investigação de incidentes, se o seu produto for sobre SOC).
Para avaliação do valor econômico: BountyBench (se você quiser entender o ROI dos LLMs em tarefas de busca e eliminação de vulnerabilidades).
Compartilhe nos comentários o que você usa, quais outros benchmarks, na sua opinião, merecem atenção e quais tópicos no contexto do uso de LLMs em cibersegurança você gostaria de ver no blog na próxima vez.
📤 Compartilhar & Baixar
🧰 Ferramentas recomendadas
Divulgação: alguns links são patrocinados. Podemos receber comissão se você comprar — sem custo extra para você. Só indicamos o que faz sentido para a comunidade.