Devorando o Cérebro da IA: Ferramentas para Pentest de LLMs
Descubra ferramentas e ambientes de teste para pentest de modelos de linguagem grandes (LLMs). O artigo explora a automação de testes, a importância da engenharia social e apresenta laboratórios como DVAIA e DVLA para aprimorar suas habilidades.
MundiX News·11 de maio de 2026·10 min de leitura·👁 7 views
Conteúdo do artigo
Ambientes de Teste
DVAIA
Folly
Garak
Promptfoo
Augustus
Conclusão
Hoje, vamos mergulhar de cabeça no mundo do pentest de IA. Encontrei ótimas ferramentas para testes automatizados de modelos de linguagem grandes e alguns excelentes laboratórios para que você possa praticar suas habilidades em testes automatizados e manuais de redes neurais.
O processo de teste de IA se assemelha mais à engenharia social do que a uma invasão técnica. Assim como um golpista telefônico convence a vítima a transferir dinheiro para uma "conta segura", um hacker convence a rede neural a mostrar "seguramente" dados secretos.
A automação em tais condições deve ser construída com sutileza. Tive que cavar fundo para encontrar ferramentas decentes. Além da eficiência, também me concentrei em dois requisitos: a ferramenta deve ser gratuita, inclusive funcionar sem assinaturas de redes neurais; os requisitos de recursos do computador devem ser mínimos. Nem todo mundo tem hardware de ponta e pode executar livremente várias redes neurais - uma para teste, outra ou várias para ataques.
Aviso
O artigo é apenas para fins informativos e destina-se a especialistas em segurança que realizam testes como parte de um contrato. O autor e a redação não são responsáveis por quaisquer danos causados pelo uso das informações apresentadas. A disseminação de software malicioso, a violação do funcionamento dos sistemas e a violação da privacidade da correspondência são puníveis por lei.
Ambientes de Teste
Qual a utilidade das ferramentas se você não pode usá-las imediatamente? Preparei várias opções de bancada de teste que você pode implantar diretamente em sua máquina.
Para os testes no artigo, usaremos a sandbox interativa DVAIA.
A aplicação é semelhante ao DVWA, mas foi criada especificamente para treinar ataques em sistemas LLM e RAG. Foi projetada para testes manuais, mas qual a diferença, na verdade?
Informações
RAG (Retrieval-Augmented Generation, "geração aumentada por busca") é uma tecnologia que melhora as respostas dos LLMs (modelos de linguagem) fornecendo a eles dados externos relevantes. O sistema procura informações relevantes em uma base de conhecimento (documentos, bancos de dados) e as insere na solicitação do modelo, o que aumenta a precisão e reduz o número de alucinações.
DVAIA é baseado em Ollama, funciona localmente, não há necessidade de conectar nenhuma API. Mas você precisará de um processador moderno que suporte as instruções AVX2. Memória de acesso aleatório - no mínimo 8 GB, mas é melhor 16 GB. Você também precisará de espaço em disco. Bem, a presença de uma GPU acelerará significativamente o trabalho. Quanto pior for o seu hardware, mais lenta será a rede neural e mais tempo será necessário para cada teste.
Uma vantagem deste laboratório é a variedade de vulnerabilidades. Há uma injeção de prompt clássica para praticar jailbreaks e tentativas de elevar privilégios. A seção Injeção de Documentos é necessária para que você trabalhe em sua habilidade de ataque por meio do upload de arquivos: PDF, DOCX, imagens com OCR. Na Injeção Web, você pode anexar uma URL maliciosa. Experimente RAG e injeção por meio de modelos. Em suma, um ambiente completo para aprimorar habilidades.
Instalação e execução do DVAIA:
bash
git clone https://github.com/genbounty/DVAIA.git
cd DVAIA
sudo ./run-docker.sh
Aguarde a mensagem de sucesso.
A aplicação vulnerável está disponível em http://127.0.0.1:5000. Abra-a em um navegador e você verá uma aplicação web completa, escrita em Flask. As vulnerabilidades são divididas por tipos, a alternância é feita através do menu esquerdo.
Interface web do DVAIA
Há também outros laboratórios e modelos voltados para o treinamento de pentest de IA. Se você está apenas começando a testar LLMs, há um pequeno conjunto de laboratórios no PortSwigger. Até o momento, existem apenas quatro deles, mas, ao concluí-los, você obterá habilidades básicas.
DVLA
Você pode praticar ataques a chatbots no Damn Vulnerable LLM Agent. Um projeto semelhante foi usado como CTF na conferência BSides London 2023. Ele é construído na arquitetura ReAct (Reasoning + Acting). Você pode executar o laboratório tanto com uma conexão ao OpenAI quanto com modelos do Hugging Face ou localmente com Ollama. Para trabalhar com OpenAI ou HF, no arquivo .env, especifique as chaves de API atuais.
Antes de instalar o laboratório, implante o Ollama. Observe que para o DVAIA, você instalou tudo em um ambiente virtual. O DVLA funciona em seu próprio ambiente virtual. Portanto, você terá que instalar o Ollama novamente.
bash
git clone https://github.com/ReversecLabs/damn-vulnerable-llm-agent.git
cd damn-vulnerable-llm-agent/
python3 -m venv envsource env/bin/activate
# O ambiente virtual foi criado e ativado, instale Ollamacurl -fsSL https://ollama.com/install.sh |sh# Verifique a versão ollama --versionollama pull mistral-nemo
cp .env.ollama.template .env
vim .env
O script solicitará um e-mail - insira qualquer um. A aplicação abrirá automaticamente no navegador.
Aplicação Damn Vulnerable LLM Agent em execução
Folly
Uma boa opção para treinar habilidades é Folly. Esta é uma ferramenta para testar a resiliência de LLMs a injeções de prompt e jailbreaks. Ele é construído em torno de uma biblioteca de tarefas, como "extrair o segredo SECRET123".
Qualquer modelo se conecta ao Folly - diretamente ou via API. Não há LLM próprio. Você pega e testa um modelo real e ativo, tentando hackeá-lo. Para isso, o Folly tem sua própria interface do usuário na web, CLI e API. Por exemplo, o antigo Llama é ideal.
Instalação:
bash
git clone https://github.com/user1342/folly.git
cd folly
pip install -e .
Garak
Este é um framework de código aberto desenvolvido pela Nvidia. No arsenal do Garak, existem mais de 50 classes de ataques (injeção de prompt, jailbreak, alucinação, toxicidade e outros), incluindo mais de 160 testes. Muitos detectores para avaliar o sucesso do ataque. Ao testar, várias solicitações são usadas, o que permite garantir a confiabilidade da vulnerabilidade detectada.
O restante do artigo está disponível apenas para assinantes do site Xakep.ru.
🛡️⚡
Pare de pesquisar. Comece a hackear.
O MundiX é seu copiloto de pentest com IA: comandos exatos, análise de outputs e próximo passo na kill chain — em segundos.
Sem cartão para começar · Planos a partir de R$49/mês
Conteúdo do artigo
Ambientes de Teste
DVAIA
Folly
Garak
Promptfoo
Augustus
Conclusão
Hoje, vamos mergulhar de cabeça no mundo do pentest de IA. Encontrei ótimas ferramentas para testes automatizados de modelos de linguagem grandes e alguns excelentes laboratórios para que você possa praticar suas habilidades em testes automatizados e manuais de redes neurais.
O processo de teste de IA se assemelha mais à engenharia social do que a uma invasão técnica. Assim como um golpista telefônico convence a vítima a transferir dinheiro para uma "conta segura", um hacker convence a rede neural a mostrar "seguramente" dados secretos.
A automação em tais condições deve ser construída com sutileza. Tive que cavar fundo para encontrar ferramentas decentes. Além da eficiência, também me concentrei em dois requisitos: a ferramenta deve ser gratuita, inclusive funcionar sem assinaturas de redes neurais; os requisitos de recursos do computador devem ser mínimos. Nem todo mundo tem hardware de ponta e pode executar livremente várias redes neurais - uma para teste, outra ou várias para ataques.
Aviso
O artigo é apenas para fins informativos e destina-se a especialistas em segurança que realizam testes como parte de um contrato. O autor e a redação não são responsáveis por quaisquer danos causados pelo uso das informações apresentadas. A disseminação de software malicioso, a violação do funcionamento dos sistemas e a violação da privacidade da correspondência são puníveis por lei.
Ambientes de Teste
Qual a utilidade das ferramentas se você não pode usá-las imediatamente? Preparei várias opções de bancada de teste que você pode implantar diretamente em sua máquina.
Para os testes no artigo, usaremos a sandbox interativa DVAIA.
A aplicação é semelhante ao DVWA, mas foi criada especificamente para treinar ataques em sistemas LLM e RAG. Foi projetada para testes manuais, mas qual a diferença, na verdade?
Informações
RAG (Retrieval-Augmented Generation, "geração aumentada por busca") é uma tecnologia que melhora as respostas dos LLMs (modelos de linguagem) fornecendo a eles dados externos relevantes. O sistema procura informações relevantes em uma base de conhecimento (documentos, bancos de dados) e as insere na solicitação do modelo, o que aumenta a precisão e reduz o número de alucinações.
DVAIA é baseado em Ollama, funciona localmente, não há necessidade de conectar nenhuma API. Mas você precisará de um processador moderno que suporte as instruções AVX2. Memória de acesso aleatório - no mínimo 8 GB, mas é melhor 16 GB. Você também precisará de espaço em disco. Bem, a presença de uma GPU acelerará significativamente o trabalho. Quanto pior for o seu hardware, mais lenta será a rede neural e mais tempo será necessário para cada teste.
Uma vantagem deste laboratório é a variedade de vulnerabilidades. Há uma injeção de prompt clássica para praticar jailbreaks e tentativas de elevar privilégios. A seção Injeção de Documentos é necessária para que você trabalhe em sua habilidade de ataque por meio do upload de arquivos: PDF, DOCX, imagens com OCR. Na Injeção Web, você pode anexar uma URL maliciosa. Experimente RAG e injeção por meio de modelos. Em suma, um ambiente completo para aprimorar habilidades.
Instalação e execução do DVAIA:
git clone https://github.com/genbounty/DVAIA.git
cd DVAIA
sudo ./run-docker.sh
Aguarde a mensagem de sucesso.
A aplicação vulnerável está disponível em http://127.0.0.1:5000. Abra-a em um navegador e você verá uma aplicação web completa, escrita em Flask. As vulnerabilidades são divididas por tipos, a alternância é feita através do menu esquerdo.
Interface web do DVAIA
Há também outros laboratórios e modelos voltados para o treinamento de pentest de IA. Se você está apenas começando a testar LLMs, há um pequeno conjunto de laboratórios no PortSwigger. Até o momento, existem apenas quatro deles, mas, ao concluí-los, você obterá habilidades básicas.
DVLA
Você pode praticar ataques a chatbots no Damn Vulnerable LLM Agent. Um projeto semelhante foi usado como CTF na conferência BSides London 2023. Ele é construído na arquitetura ReAct (Reasoning + Acting). Você pode executar o laboratório tanto com uma conexão ao OpenAI quanto com modelos do Hugging Face ou localmente com Ollama. Para trabalhar com OpenAI ou HF, no arquivo .env, especifique as chaves de API atuais.
Antes de instalar o laboratório, implante o Ollama. Observe que para o DVAIA, você instalou tudo em um ambiente virtual. O DVLA funciona em seu próprio ambiente virtual. Portanto, você terá que instalar o Ollama novamente.
git clone https://github.com/ReversecLabs/damn-vulnerable-llm-agent.git
cd damn-vulnerable-llm-agent/
python3 -m venv env
source env/bin/activate
# O ambiente virtual foi criado e ativado, instale Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Verifique a versão ollama --version
ollama pull mistral-nemo
cp .env.ollama.template .env
vim .env
O script solicitará um e-mail - insira qualquer um. A aplicação abrirá automaticamente no navegador.
Aplicação Damn Vulnerable LLM Agent em execução
Folly
Uma boa opção para treinar habilidades é Folly. Esta é uma ferramenta para testar a resiliência de LLMs a injeções de prompt e jailbreaks. Ele é construído em torno de uma biblioteca de tarefas, como "extrair o segredo SECRET123".
Qualquer modelo se conecta ao Folly - diretamente ou via API. Não há LLM próprio. Você pega e testa um modelo real e ativo, tentando hackeá-lo. Para isso, o Folly tem sua própria interface do usuário na web, CLI e API. Por exemplo, o antigo Llama é ideal.
Instalação:
git clone https://github.com/user1342/folly.git
cd folly
pip install -e .
Garak
Este é um framework de código aberto desenvolvido pela Nvidia. No arsenal do Garak, existem mais de 50 classes de ataques (injeção de prompt, jailbreak, alucinação, toxicidade e outros), incluindo mais de 160 testes. Muitos detectores para avaliar o sucesso do ataque. Ao testar, várias solicitações são usadas, o que permite garantir a confiabilidade da vulnerabilidade detectada.
O restante do artigo está disponível apenas para assinantes do site Xakep.ru.
📤 Compartilhar & Baixar
🧰 Ferramentas recomendadas
Divulgação: alguns links são patrocinados. Podemos receber comissão se você comprar — sem custo extra para você. Só indicamos o que faz sentido para a comunidade.