Devorando o Cérebro da IA: Ferramentas para Pentest de LLMs

Devorando o Cérebro da IA: Ferramentas para Pentest de LLMs

Descubra ferramentas e ambientes de teste para pentest de modelos de linguagem grandes (LLMs). O artigo explora a automação de testes, a importância da engenharia social e apresenta laboratórios como DVAIA e DVLA para aprimorar suas habilidades.

MundiX News·11 de maio de 2026·10 min de leitura·👁 7 views

Conteúdo do artigo

Ambientes de Teste DVAIA Folly Garak Promptfoo Augustus Conclusão

Hoje, vamos mergulhar de cabeça no mundo do pentest de IA. Encontrei ótimas ferramentas para testes automatizados de modelos de linguagem grandes e alguns excelentes laboratórios para que você possa praticar suas habilidades em testes automatizados e manuais de redes neurais.

O processo de teste de IA se assemelha mais à engenharia social do que a uma invasão técnica. Assim como um golpista telefônico convence a vítima a transferir dinheiro para uma "conta segura", um hacker convence a rede neural a mostrar "seguramente" dados secretos.

A automação em tais condições deve ser construída com sutileza. Tive que cavar fundo para encontrar ferramentas decentes. Além da eficiência, também me concentrei em dois requisitos: a ferramenta deve ser gratuita, inclusive funcionar sem assinaturas de redes neurais; os requisitos de recursos do computador devem ser mínimos. Nem todo mundo tem hardware de ponta e pode executar livremente várias redes neurais - uma para teste, outra ou várias para ataques.

Aviso

O artigo é apenas para fins informativos e destina-se a especialistas em segurança que realizam testes como parte de um contrato. O autor e a redação não são responsáveis por quaisquer danos causados pelo uso das informações apresentadas. A disseminação de software malicioso, a violação do funcionamento dos sistemas e a violação da privacidade da correspondência são puníveis por lei.

Ambientes de Teste

Qual a utilidade das ferramentas se você não pode usá-las imediatamente? Preparei várias opções de bancada de teste que você pode implantar diretamente em sua máquina.

Para os testes no artigo, usaremos a sandbox interativa DVAIA.

A aplicação é semelhante ao DVWA, mas foi criada especificamente para treinar ataques em sistemas LLM e RAG. Foi projetada para testes manuais, mas qual a diferença, na verdade?

Informações RAG (Retrieval-Augmented Generation, "geração aumentada por busca") é uma tecnologia que melhora as respostas dos LLMs (modelos de linguagem) fornecendo a eles dados externos relevantes. O sistema procura informações relevantes em uma base de conhecimento (documentos, bancos de dados) e as insere na solicitação do modelo, o que aumenta a precisão e reduz o número de alucinações.

DVAIA é baseado em Ollama, funciona localmente, não há necessidade de conectar nenhuma API. Mas você precisará de um processador moderno que suporte as instruções AVX2. Memória de acesso aleatório - no mínimo 8 GB, mas é melhor 16 GB. Você também precisará de espaço em disco. Bem, a presença de uma GPU acelerará significativamente o trabalho. Quanto pior for o seu hardware, mais lenta será a rede neural e mais tempo será necessário para cada teste.

Uma vantagem deste laboratório é a variedade de vulnerabilidades. Há uma injeção de prompt clássica para praticar jailbreaks e tentativas de elevar privilégios. A seção Injeção de Documentos é necessária para que você trabalhe em sua habilidade de ataque por meio do upload de arquivos: PDF, DOCX, imagens com OCR. Na Injeção Web, você pode anexar uma URL maliciosa. Experimente RAG e injeção por meio de modelos. Em suma, um ambiente completo para aprimorar habilidades.

Instalação e execução do DVAIA:

bash
git clone https://github.com/genbounty/DVAIA.git
cd DVAIA
sudo ./run-docker.sh

Aguarde a mensagem de sucesso.

A aplicação vulnerável está disponível em http://127.0.0.1:5000. Abra-a em um navegador e você verá uma aplicação web completa, escrita em Flask. As vulnerabilidades são divididas por tipos, a alternância é feita através do menu esquerdo.

Interface web do DVAIA

Há também outros laboratórios e modelos voltados para o treinamento de pentest de IA. Se você está apenas começando a testar LLMs, há um pequeno conjunto de laboratórios no PortSwigger. Até o momento, existem apenas quatro deles, mas, ao concluí-los, você obterá habilidades básicas.

DVLA

Você pode praticar ataques a chatbots no Damn Vulnerable LLM Agent. Um projeto semelhante foi usado como CTF na conferência BSides London 2023. Ele é construído na arquitetura ReAct (Reasoning + Acting). Você pode executar o laboratório tanto com uma conexão ao OpenAI quanto com modelos do Hugging Face ou localmente com Ollama. Para trabalhar com OpenAI ou HF, no arquivo .env, especifique as chaves de API atuais.

Antes de instalar o laboratório, implante o Ollama. Observe que para o DVAIA, você instalou tudo em um ambiente virtual. O DVLA funciona em seu próprio ambiente virtual. Portanto, você terá que instalar o Ollama novamente.

bash
git clone https://github.com/ReversecLabs/damn-vulnerable-llm-agent.git
cd damn-vulnerable-llm-agent/
python3 -m venv env
source env/bin/activate
# O ambiente virtual foi criado e ativado, instale Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Verifique a versão ollama --version
ollama pull mistral-nemo
cp .env.ollama.template .env
vim .env

No .env, corrija:

model_name = "ollama-mistral-nemo"
OLLAMA_HOST = http://localhost:11434

Continue a instalação do laboratório:

bash
pip install -r requirements.txt
pip install python-dotenv

Executando o laboratório:

bash
python -m streamlit run main.py

O script solicitará um e-mail - insira qualquer um. A aplicação abrirá automaticamente no navegador.

Aplicação Damn Vulnerable LLM Agent em execução

Folly

Uma boa opção para treinar habilidades é Folly. Esta é uma ferramenta para testar a resiliência de LLMs a injeções de prompt e jailbreaks. Ele é construído em torno de uma biblioteca de tarefas, como "extrair o segredo SECRET123".

Qualquer modelo se conecta ao Folly - diretamente ou via API. Não há LLM próprio. Você pega e testa um modelo real e ativo, tentando hackeá-lo. Para isso, o Folly tem sua própria interface do usuário na web, CLI e API. Por exemplo, o antigo Llama é ideal.

Instalação:

bash
git clone https://github.com/user1342/folly.git
cd folly
pip install -e .

Garak

Este é um framework de código aberto desenvolvido pela Nvidia. No arsenal do Garak, existem mais de 50 classes de ataques (injeção de prompt, jailbreak, alucinação, toxicidade e outros), incluindo mais de 160 testes. Muitos detectores para avaliar o sucesso do ataque. Ao testar, várias solicitações são usadas, o que permite garantir a confiabilidade da vulnerabilidade detectada.

O restante do artigo está disponível apenas para assinantes do site Xakep.ru.

🛡️⚡

Pare de pesquisar. Comece a hackear.

O MundiX é seu copiloto de pentest com IA: comandos exatos, análise de outputs e próximo passo na kill chain — em segundos.

Testar grátis por 7 dias →

Sem cartão para começar · Planos a partir de R$49/mês

📤 Compartilhar & Baixar

🧰 Ferramentas recomendadas

Divulgação: alguns links são patrocinados. Podemos receber comissão se você comprar — sem custo extra para você. Só indicamos o que faz sentido para a comunidade.

Aprendendo Kali Linux: Teste de segurança, pentest e hacking ético

Aprendendo Kali Linux: Teste de segurança, pentest e hacking ético

Com centenas de ferramentas pré-instaladas, a distribuição Kali Linux facilita o trabalho de os profissionais de segurança começarem a fazer testes de segurança rapidamente. No entanto, com mais de 600 ferramentas em seu arsenal, o Kali Linux também pode ser desafiador. A nova edição deste prático livro abrange as atualizações nas ferramentas e inclui uma melhor abordagem da análise forense e da engenharia reversa. Ric Messier, autor, não fica apenas no teste de segurança, mas também faz uma abordagem sobre a execução de análise forense, incluindo a análise em disco e na memória, assim como alguma análise básica de malware. • Explore as diversas ferramentas disponíveis no Kali Linux • Entenda o valor do teste de segurança e examine os tipos de teste disponíveis • Aprenda os aspectos básicos do pentest em todo o ciclo de vida do ataque • Instale o Kali Linux em vários sistemas, tanto físicos quanto virtuais • Descubra como usar diferentes ferramentas destinadas à segurança • Estruture um teste de segurança baseado nas ferramentas do Kali Linux • Estenda as ferramentas do Kali para criar técnicas de ataque avançadas • Use o Kali Linux para ajudar a criar relatórios quando o teste terminar “A abordagem concisa, clara e baseada na experiência adotada por Ric Messier para a introdução do Kali Linux e dos testes de cibersegurança é incomparável. Este livro é uma leitura excelente e acessível para iniciantes e um recurso valioso para qualquer pessoa.” —Alexander Arlt, Consultor sênior de segurança, Google

Ver na Amazon
Gshield 2 em 1 Hub Extensor Conector USB-C + USB-A e Adaptador de Rede Ethernet LAN RJ45 com 3 Entradas USB 3.0 até 5 Gbps em Liga de Alumínio para Computador e Notebook, Cinza

Gshield 2 em 1 Hub Extensor Conector USB-C + USB-A e Adaptador de Rede Ethernet LAN RJ45 com 3 Entradas USB 3.0 até 5 Gbps em Liga de Alumínio para Computador e Notebook, Cinza

Compatível com portas USB-C e USB-A, ideal para ampliar a conectividade de dispositivos como MacBook Pro e outros com portas USB-C. Inclui um adaptador USB-A extra, proporcionando uma conexão Ethernet estável e veloz de até 1 Gbps, perfeita para filmes, jogos online e videoconferências. Oferece três portas USB 3.0 com velocidades de transferência de até 5 Gbps, permitindo conectar mouse, teclado, discos rígidos e outros periféricos. Fabricado em alumínio durável, garantindo longa vida útil e resistência ao uso diário. Design compacto e leve, ideal para viagens de negócios e uso diário, facilitando o transporte e armazenamento. Funciona com Windows 10/8.1/8, Mac OS e Chrome OS, oferecendo versatilidade incomparável para diversas necessidades de conectividade. Assegura uma conectividade estável e rápida, perfeita para tarefas exigentes como transferência de dados, streaming e mais.

Ver na Amazon
Hacking APIs: Breaking Web Application Programming Interfaces

Hacking APIs: Breaking Web Application Programming Interfaces

Hacking APIs is a crash course on web API security testing that will prepare you to penetration-test APIs, reap high rewards on bug bounty programs, and make your own APIs more secure. You'll learn how REST and GraphQL APIs work in the wild and set up a streamlined API testing lab with Burp Suite and Postman. Then you'll master tools useful for reconnaissance, endpoint analysis, and fuzzing, such as Kiterunner and OWASP Amass. Next, you'll learn to perform common attacks, like those targeting an API's authentication mechanisms and the injection vulnerabilities commonly found in web applications. You'll also learn techniques for bypassing protections against these attacks. In the book's nine guided labs, which target intentionally vulnerable APIs, you'll practice: Enumerating APIs users and endpoints using fuzzing techniques Using Postman to discover an excessive data exposure vulnerability Performing a JSON Web Token attack against an API authentication process Combining multiple API attack techniques to perform a NoSQL injection Attacking a GraphQL API to uncover a broken object level authorization vulnerability

Ver oferta
Gray Hat Hacking: The Ethical Hacker's Handbook, Sixth Edition

Gray Hat Hacking: The Ethical Hacker's Handbook, Sixth Edition

Up-to-date strategies for thwarting the latest, most insidious network attacks This fully updated, industry-standard security resource shows, step by step, how to fortify computer networks by learning and applying effective ethical hacking techniques. Based on curricula developed by the authors at major security conferences and colleges, the book features actionable planning and analysis methods as well as practical steps for identifying and combating both targeted and opportunistic attacks. Gray Hat Hacking: The Ethical Hacker's Handbook, Sixth Edition clearly explains the enemy's devious weapons, skills, and tactics and offers field-tested remedies, case studies, and testing labs. You will get complete coverage of Internet of Things, mobile, and Cloud security along with penetration testing, malware analysis, and reverse engineering techniques. State-of-the-art malware, ransomware, and system exploits are thoroughly explained. Fully revised content includes 7 new chapters covering the latest threats Includes proof-of-concept code stored on the GitHub repository Authors train attendees at major security conferences, including RSA, Black Hat, Defcon, and B-Sides

Ver na Amazon
Bloqueador USB de privacidade de porta USB para PC, notebook, bloco de laptop,

Bloqueador USB de privacidade de porta USB para PC, notebook, bloco de laptop,

Proteção de privacidade aprimorada: protege o link de transmissão de dados para evitar roubo de informações, fornecendo proteção de segurança robusta que protege a privacidade do usuário durante transferências de arquivos e garante uma conexão segura para interações de dispositivos sem preocupações em vários ambientes Uso a longo prazo: a camada protetora resistente ao desgaste, combinada com um corpo de metal resistente, oferece gerenciamento de calor confiável e qualidade duradoura durante o uso diário Entrega eficiente de energia: a tecnologia de chip inteligente garante a identificação automática dos requisitos de energia, fornecendo carregamento eficiente alinhando-se com vários protocolos de carregamento rápido para maior conveniência Proteção contra sobrecarga: evitando riscos de sobrecarga, este bloqueador de dados USB protege a vida útil da bateria e garante um desempenho estável, mantendo um fluxo estável de energia para melhorar a longevidade do dispositivo de forma eficaz Prático de transportar: com atenção à portabilidade, este bloqueador de dados USB oferece um design compacto que é leve e fácil de transportar, melhorando a conveniência do usuário e operação eficiente

Ver na Amazon

📩 Newsletter MundiX

Receba novidades de cibersegurança + um checklist de pentest grátis. Sem spam.

Ao assinar você concorda em receber e-mails. Cancele quando quiser.