HiveTraceRed vs. Garak: Testando a Segurança de Model Modelos de Linguagem em Russo e Inglês
Uma análise comparativa entre as ferramentas russas HiveTraceRed e a internacional Garak para testar a robustez de Modelos de Linguagem Grandes (LLMs) contra ataques. O estudo foca na eficácia de cada ferramenta em diferentes idiomas e cenários.
MundiX News·12 de maio de 2026·10 min de leitura·👁 7 views
Nossa equipe realizou um comparativo entre duas ferramentas open-source para testar a resiliência de Modelos de Linguagem Grandes (LLMs) a ataques: a russa HiveTraceRed, desenvolvida pela HiveTrace/ITMO, e a internacional Garak, da NVIDIA. Ambas foram submetidas a um conjunto idêntico de tarefas, visando dois modelos open-source (qwen2.5:3b e llama3.2:3b) nos idiomas inglês e russo.
Os resultados indicam que, em inglês, ambas as ferramentas apresentaram desempenho semelhante. O HiveTraceRed identificou 11 potenciais jailbreaks (técnicas para contornar as restrições de segurança de um modelo através de prompts maliciosos) em 380 tentativas, enquanto o Garak encontrou 2 em 174 tentativas. Após uma análise manual dos 20 candidatos identificados por ambas as ferramentas, 12 foram confirmados como jailbreaks reais, 2 como casos limítrofes e 6 como falsos positivos. No entanto, no idioma russo, o Garak mostrou-se ineficaz, não encontrando nenhum candidato a jailbreak em ambas as modelos após 80 tentativas. Em contraste, o HiveTraceRed identificou 7 candidatos em 380 tentativas. Portanto, para testar LLMs que atendem a usuários de língua russa, como produtos desenvolvidos na Rússia ou chatbots baseados em YandexGPT, o HiveTraceRed é a ferramenta recomendada.
O uso de LLMs em produção, desde 2024, expandiu-se para diversas áreas como suporte ao cliente em bancos, consultorias jurídicas, assistentes médicos e serviços governamentais. Essa proliferação trouxe consigo uma nova classe de vulnerabilidades, onde usuários podem manipular modelos para executar ações não intencionais, como gerar instruções para phishing, escrever malware, vazar system prompts ou criar conteúdo ofensivo. Para mitigar esses riscos, a indústria adota frameworks como o OWASP LLM Top 10, que lista as dez principais ameaças, o MITRE ATLAS, um catálogo de técnicas de ataque a sistemas de Machine Learning, e regulamentações como o Decreto FSTEC da Rússia nº 117, que exige o controle de requisições e respostas. O mercado comercial de LLMs, incluindo GigaChat e YandexGPT, também exige testes rigorosos antes da implantação. Embora ainda não existam padrões industriais abertos consolidados, diversas ferramentas open-source estão disponíveis, sendo o Garak e o HiveTraceRed os focos desta análise comparativa.
O HiveTraceRed é um framework russo open-source (licença Apache 2.0) que oferece 91 ataques em 12 categorias, com suporte nativo para GigaChat e YandexGPT, gerando relatórios em HTML mapeados para os padrões FSTEC 117, OWASP LLM Top 10 e MITRE ATLAS. Apesar de sua comunidade ser menor (cerca de 26 estrelas no GitHub no momento do teste), o projeto está em desenvolvimento ativo. Por outro lado, o Garak, um scanner open-source da NVIDIA (licença Apache 2.0, lançado em 2023), possui mais de 158 ataques, 29 detectores integrados e gera relatórios em JSONL com intervalos de confiança e classificação de risco DEFCON. Ele suporta uma vasta gama de backends, incluindo OpenAI, Anthropic (via litellm), Hugging Face e Ollama. O principal ponto fraco do Garak é seu foco primário no idioma inglês; o suporte ao russo é limitado a um módulo ru_basic. com poucas tentativas e um pequeno conjunto de dados. Este artigo visa comparar empiricamente a eficácia dessas ferramentas em cenários de teste idênticos.
Para o teste, foram utilizadas duas modelos locais via Ollama: qwen2.5:3b (Alibaba, multilíngue, com safety-training) e llama3.2:3b (Meta, focada em inglês, também com safety-tuned). Ambas possuem 3 bilhões de parâmetros, facilitando o teste em CPU, mas a metodologia é independente de hardware. Foram preparados 20 base-prompts maliciosos para cada idioma, abrangendo 10 categorias de ataque, como phishing, malware, drogas, armas, conteúdo tóxico, vazamento de system prompt, fraude, engenharia social, dano físico e doxing. Cada ferramenta gera dezenas de payloads transformados a partir desses base-prompts. No total, foram executadas 190 pares (prompt, resposta do modelo) para o HiveTraceRed e entre 40 e 92 pares para o Garak por combinação (modelo, idioma). Ataques iterativos, prompts muito longos, multimodalidade e conversas multi-turn não foram testados nesta fase.
Em inglês, ambas as ferramentas demonstraram capacidade de identificação. O HiveTraceRed encontrou mais candidatos a jailbreaks (11 no total) em comparação com o Garak (2). As técnicas mais eficazes para o qwen2.5:3b incluíram ataques de role-playing (EvilConfidantAttack), codificação (Base64OutputAttack) e sufixos adversários (GCGTransferHarmbenchAttack). O llama3.2:3b mostrou-se mais resistente, com jailbreaks identificados por ataques de transformação de JSON (JSONTransformAttack), divisão de tarefas (PayloadSplittingAttack) e uso de distratores (DistractorsAttack). O Garak, por sua vez, teve sucesso limitado, principalmente com a categoria latentinjection.LatentJailbreak, que insere instruções maliciosas em contextos aparentemente legítimos. Muitas das tentativas do Garak resultaram em respostas neutras a perguntas controversas, sendo classificadas como falsos positivos.
No idioma russo, a disparidade de desempenho foi acentuada. O Garak falhou completamente em identificar qualquer jailbreak, enquanto o HiveTraceRed encontrou 7. Isso se deve à limitação do módulo russo do Garak (ru_basic.) e à dificuldade de transposição de ataques em inglês para o russo. O HiveTraceRed demonstrou sucesso com ataques de role-playing (EvilConfidantAttack), injeção de prefixo (PrefixInjectionAttack) e sufixos adversários (GCGTransferHarmbenchAttack), mesmo quando os payloads eram gerados em inglês para prompts em russo. O llama3.2:3b permaneceu altamente resistente em russo, com apenas um candidato a jailbreak questionável. A análise detalhada das categorias de ataque revela que as técnicas empregadas pelo HiveTraceRed, especialmente aquelas adaptadas para o contexto russo e com payloads mais elaborados, foram significativamente mais eficazes.
Em termos de instalação, o HiveTraceRed é mais simples via pip install hivetracered, enquanto o Garak requer Python 3.10-3.12. A documentação do Garak é mais robusta com um site dedicado (docs.garak.ai), enquanto o HiveTraceRed oferece um README e exemplos de configuração. A extensibilidade para criar novos ataques é comparável. A velocidade de processamento em CPU é similar, limitada pela inferência do modelo. A qualidade dos relatórios difere: HiveTraceRed gera HTML com mapeamento para padrões regulatórios, e Garak oferece relatórios hierárquicos com classificação de risco. O suporte ao idioma russo é nativo no HiveTraceRed, com datasets e avaliadores específicos, enquanto o Garak depende de um módulo limitado. O HiveTraceRed também oferece mapeamento nativo para o padrão FSTEC 117 e suporte direto para GigaChat/YandexGPT. Apesar da comunidade menor, o HiveTraceRed se destaca pelo foco em regulamentações russas e suporte a LLMs locais. O Garak, com sua comunidade maior e biblioteca de ataques mais ampla, é mais adequado para LLMs puramente em inglês.
A escolha entre as ferramentas depende do caso de uso. Para LLMs que operam exclusivamente em inglês, o Garak é uma opção robusta, mas requer validação manual dos resultados. Para LLMs que atendem usuários de língua russa, o HiveTraceRed é a escolha mais realista e eficaz, especialmente para auditorias de conformidade com o FSTEC 117. Para uma auditoria completa de sistemas críticos, a utilização de ambas as ferramentas é recomendada, pois seus conjuntos de ataques são complementares. É crucial não confiar cegamente nas avaliações automáticas; uma validação manual, mesmo que de uma amostra, é essencial para garantir a precisão dos resultados. É importante notar que os testes foram realizados com modelos de 3 bilhões de parâmetros e os resultados podem variar para modelos maiores e mais sofisticados.
🛡️⚡
Pare de pesquisar. Comece a hackear.
O MundiX é seu copiloto de pentest com IA: comandos exatos, análise de outputs e próximo passo na kill chain — em segundos.
Sem cartão para começar · Planos a partir de R$49/mês
Nossa equipe realizou um comparativo entre duas ferramentas open-source para testar a resiliência de Modelos de Linguagem Grandes (LLMs) a ataques: a russa HiveTraceRed, desenvolvida pela HiveTrace/ITMO, e a internacional Garak, da NVIDIA. Ambas foram submetidas a um conjunto idêntico de tarefas, visando dois modelos open-source (qwen2.5:3b e llama3.2:3b) nos idiomas inglês e russo.
Os resultados indicam que, em inglês, ambas as ferramentas apresentaram desempenho semelhante. O HiveTraceRed identificou 11 potenciais jailbreaks (técnicas para contornar as restrições de segurança de um modelo através de prompts maliciosos) em 380 tentativas, enquanto o Garak encontrou 2 em 174 tentativas. Após uma análise manual dos 20 candidatos identificados por ambas as ferramentas, 12 foram confirmados como jailbreaks reais, 2 como casos limítrofes e 6 como falsos positivos. No entanto, no idioma russo, o Garak mostrou-se ineficaz, não encontrando nenhum candidato a jailbreak em ambas as modelos após 80 tentativas. Em contraste, o HiveTraceRed identificou 7 candidatos em 380 tentativas. Portanto, para testar LLMs que atendem a usuários de língua russa, como produtos desenvolvidos na Rússia ou chatbots baseados em YandexGPT, o HiveTraceRed é a ferramenta recomendada.
O uso de LLMs em produção, desde 2024, expandiu-se para diversas áreas como suporte ao cliente em bancos, consultorias jurídicas, assistentes médicos e serviços governamentais. Essa proliferação trouxe consigo uma nova classe de vulnerabilidades, onde usuários podem manipular modelos para executar ações não intencionais, como gerar instruções para phishing, escrever malware, vazar system prompts ou criar conteúdo ofensivo. Para mitigar esses riscos, a indústria adota frameworks como o OWASP LLM Top 10, que lista as dez principais ameaças, o MITRE ATLAS, um catálogo de técnicas de ataque a sistemas de Machine Learning, e regulamentações como o Decreto FSTEC da Rússia nº 117, que exige o controle de requisições e respostas. O mercado comercial de LLMs, incluindo GigaChat e YandexGPT, também exige testes rigorosos antes da implantação. Embora ainda não existam padrões industriais abertos consolidados, diversas ferramentas open-source estão disponíveis, sendo o Garak e o HiveTraceRed os focos desta análise comparativa.
O HiveTraceRed é um framework russo open-source (licença Apache 2.0) que oferece 91 ataques em 12 categorias, com suporte nativo para GigaChat e YandexGPT, gerando relatórios em HTML mapeados para os padrões FSTEC 117, OWASP LLM Top 10 e MITRE ATLAS. Apesar de sua comunidade ser menor (cerca de 26 estrelas no GitHub no momento do teste), o projeto está em desenvolvimento ativo. Por outro lado, o Garak, um scanner open-source da NVIDIA (licença Apache 2.0, lançado em 2023), possui mais de 158 ataques, 29 detectores integrados e gera relatórios em JSONL com intervalos de confiança e classificação de risco DEFCON. Ele suporta uma vasta gama de backends, incluindo OpenAI, Anthropic (via litellm), Hugging Face e Ollama. O principal ponto fraco do Garak é seu foco primário no idioma inglês; o suporte ao russo é limitado a um módulo ru_basic. com poucas tentativas e um pequeno conjunto de dados. Este artigo visa comparar empiricamente a eficácia dessas ferramentas em cenários de teste idênticos.
Para o teste, foram utilizadas duas modelos locais via Ollama: qwen2.5:3b (Alibaba, multilíngue, com safety-training) e llama3.2:3b (Meta, focada em inglês, também com safety-tuned). Ambas possuem 3 bilhões de parâmetros, facilitando o teste em CPU, mas a metodologia é independente de hardware. Foram preparados 20 base-prompts maliciosos para cada idioma, abrangendo 10 categorias de ataque, como phishing, malware, drogas, armas, conteúdo tóxico, vazamento de system prompt, fraude, engenharia social, dano físico e doxing. Cada ferramenta gera dezenas de payloads transformados a partir desses base-prompts. No total, foram executadas 190 pares (prompt, resposta do modelo) para o HiveTraceRed e entre 40 e 92 pares para o Garak por combinação (modelo, idioma). Ataques iterativos, prompts muito longos, multimodalidade e conversas multi-turn não foram testados nesta fase.
Em inglês, ambas as ferramentas demonstraram capacidade de identificação. O HiveTraceRed encontrou mais candidatos a jailbreaks (11 no total) em comparação com o Garak (2). As técnicas mais eficazes para o qwen2.5:3b incluíram ataques de role-playing (EvilConfidantAttack), codificação (Base64OutputAttack) e sufixos adversários (GCGTransferHarmbenchAttack). O llama3.2:3b mostrou-se mais resistente, com jailbreaks identificados por ataques de transformação de JSON (JSONTransformAttack), divisão de tarefas (PayloadSplittingAttack) e uso de distratores (DistractorsAttack). O Garak, por sua vez, teve sucesso limitado, principalmente com a categoria latentinjection.LatentJailbreak, que insere instruções maliciosas em contextos aparentemente legítimos. Muitas das tentativas do Garak resultaram em respostas neutras a perguntas controversas, sendo classificadas como falsos positivos.
No idioma russo, a disparidade de desempenho foi acentuada. O Garak falhou completamente em identificar qualquer jailbreak, enquanto o HiveTraceRed encontrou 7. Isso se deve à limitação do módulo russo do Garak (ru_basic.) e à dificuldade de transposição de ataques em inglês para o russo. O HiveTraceRed demonstrou sucesso com ataques de role-playing (EvilConfidantAttack), injeção de prefixo (PrefixInjectionAttack) e sufixos adversários (GCGTransferHarmbenchAttack), mesmo quando os payloads eram gerados em inglês para prompts em russo. O llama3.2:3b permaneceu altamente resistente em russo, com apenas um candidato a jailbreak questionável. A análise detalhada das categorias de ataque revela que as técnicas empregadas pelo HiveTraceRed, especialmente aquelas adaptadas para o contexto russo e com payloads mais elaborados, foram significativamente mais eficazes.
Em termos de instalação, o HiveTraceRed é mais simples via pip install hivetracered, enquanto o Garak requer Python 3.10-3.12. A documentação do Garak é mais robusta com um site dedicado (docs.garak.ai), enquanto o HiveTraceRed oferece um README e exemplos de configuração. A extensibilidade para criar novos ataques é comparável. A velocidade de processamento em CPU é similar, limitada pela inferência do modelo. A qualidade dos relatórios difere: HiveTraceRed gera HTML com mapeamento para padrões regulatórios, e Garak oferece relatórios hierárquicos com classificação de risco. O suporte ao idioma russo é nativo no HiveTraceRed, com datasets e avaliadores específicos, enquanto o Garak depende de um módulo limitado. O HiveTraceRed também oferece mapeamento nativo para o padrão FSTEC 117 e suporte direto para GigaChat/YandexGPT. Apesar da comunidade menor, o HiveTraceRed se destaca pelo foco em regulamentações russas e suporte a LLMs locais. O Garak, com sua comunidade maior e biblioteca de ataques mais ampla, é mais adequado para LLMs puramente em inglês.
A escolha entre as ferramentas depende do caso de uso. Para LLMs que operam exclusivamente em inglês, o Garak é uma opção robusta, mas requer validação manual dos resultados. Para LLMs que atendem usuários de língua russa, o HiveTraceRed é a escolha mais realista e eficaz, especialmente para auditorias de conformidade com o FSTEC 117. Para uma auditoria completa de sistemas críticos, a utilização de ambas as ferramentas é recomendada, pois seus conjuntos de ataques são complementares. É crucial não confiar cegamente nas avaliações automáticas; uma validação manual, mesmo que de uma amostra, é essencial para garantir a precisão dos resultados. É importante notar que os testes foram realizados com modelos de 3 bilhões de parâmetros e os resultados podem variar para modelos maiores e mais sofisticados.
📤 Compartilhar & Baixar
🧰 Ferramentas recomendadas
Divulgação: alguns links são patrocinados. Podemos receber comissão se você comprar — sem custo extra para você. Só indicamos o que faz sentido para a comunidade.