Por que bots de IA são mais vulneráveis do que seus modelos LLM básicos?

Em um artigo anterior, demonstrei como proteger um projeto de bot do Telegram de código aberto. Nos comentários, fui questionado sobre outras ferramentas e métodos de verificação, o que nos levou à questão fundamental: por que, se o LLM principal é protegido, os bots personalizados baseados nele permanecem vulneráveis?

Os LLMs básicos passam por treinamento de segurança separado e alinhamento RLHF. No entanto, um bot de produção construído sobre o modelo adiciona uma nova superfície de ataque: prompts do sistema, memória de diálogo, RAG (Retrieval-Augmented Generation), ferramentas, lógica de webhook e APIs externas. É essa camada de orquestração que muitas vezes se torna o ponto fraco. Aqui estão os dados:

De uma análise de 14.904 GPTs personalizados:

95% não possuem proteção adequada
96,51% são vulneráveis a ataques de roleplay
92,20% - vazamento de prompt do sistema
91,22% - geração de conteúdo de phishing
0,47% resistiram a todos os ataques

De 10.000 GPTs personalizados reais:

98,8% são vulneráveis a ataques de vazamento de instruções
Metade dos 1,2% restantes é hackeada por meio de diálogos de várias etapas

De testes de mais de 200 GPTs personalizados (Yu et al., ICLR 2024):

A grande maioria é vulnerável ao vazamento de prompt do sistema, 100% - ao vazamento de arquivos carregados.

Ao mesmo tempo, os mesmos modelos básicos bloqueiam a maioria desses ataques diretamente. Como observam os pesquisadores da ACM:

"Embora os LLMs básicos sejam geralmente mais seguros, as vulnerabilidades persistem... o que indica que tais deficiências podem ser transferidas ou mesmo exacerbadas em modelos personalizados."

As pesquisas cobrem Custom GPTs, mas a mesma superfície de ataque - prompt do sistema, RAG, lógica de webhook - está presente em qualquer bot LLM de produção, incluindo o Telegram.

Por que Garak, Promptfoo e PyRIT não resolvem esse problema?

As três ferramentas são excelentes. Mas cada uma tem uma limitação fundamental para nossa tarefa.

Garak: Ideal para sondagem e testes de segurança dos próprios modelos LLM e wrappers de API. Mas para bots de produção complexos com integrações de webhook, estado de diálogo e lógica de negócios, ele precisa ser alterado significativamente.
Promptfoo: Adequado para evals, testes de regressão e verificação de equipe vermelha de pipelines LLM. No entanto, para testes contínuos de bots de produção com fluxos de webhook reais, sessões de usuário e estado de diálogo complexo, geralmente é necessária infraestrutura adicional.
PyRIT (Microsoft): Uma estrutura para construir cenários de ataque personalizados. Poderoso, mas requer a escrita de scripts Python para cada cenário. Esta é uma ferramenta para pesquisadores e equipes de segurança dedicadas.

Qual é a lacuna?

As ferramentas existentes são focadas em sondagem de modelo, evals de pipeline ou cenários de equipe vermelha de pesquisa. Bots de webhook de produção com sessões de usuário de várias etapas permanecem um caso menos automatizado.

BarkingDog preenche exatamente essa lacuna - testa o bot por meio de um webhook real com ataques de várias etapas, pronto para uso, sem escrever nenhum código.

GitHub:

https://github.com/PPushkarev/BarkingDog

Você já encontrou esse problema ao implantar seus bots? Escreva nos comentários!

Por que bots de IA são mais vulneráveis do que seus modelos LLM básicos?