A ascensão dos agentes de Inteligência Artificial (IA) nas empresas trouxe consigo uma nova onda de preocupações com a segurança. Enquanto a indústria avança rapidamente na adoção dessas tecnologias, uma análise recente de três populares agentes de IA de código aberto – Agno, OpenAI CS Agents Demo e LangGraph agent-service-toolkit – revelou três classes distintas de vulnerabilidades que métodos convencionais de red teaming não conseguem detectar. O scanner de segurança BarkingDog, agora com um modo de ataque focado em agentes de IA, foi utilizado para expor essas falhas, oferecendo insights cruciais sobre a arquitetura de segurança desses sistemas.
O cenário de segurança em 2026 é marcado por uma crescente apreensão em relação aos agentes de IA. Pesquisas indicam que a vasta maioria dos líderes de segurança está preocupada com a presença desses agentes em suas organizações, e um número significativo de empresas já relatou incidentes confirmados ou suspeitos. O OWASP, reconhecendo a emergência dos agentes como uma nova classe de ameaças, lançou o padrão "Top 10 for Agentic Applications 2026 (ASI)". Este movimento reflete a transição de riscos teóricos para vulnerabilidades concretas, como exemplificado por incidentes recentes envolvendo a injeção de backdoors em bibliotecas populares e o surgimento de bots autônomos. Ferramentas de teste existentes, como Garak e PyRIT, focam primariamente na avaliação do modelo de linguagem em si ou em cenários de interação isolados. No entanto, elas falham em testar o ambiente de produção completo do agente, incluindo o sistema de orquestração, o gerenciamento de ferramentas (tool invocation), a memória e a lógica de negócios. É precisamente essa camada intermediária que se tornou a principal superfície de ataque para sistemas baseados em agentes.
A arquitetura do BarkingDog foi projetada para abordar essa lacuna, atacando o mesmo webhook HTTP que lida com o tráfego real do usuário. Isso permite um teste end-to-end que abrange não apenas o modelo de linguagem, mas todo o runtime do agente. O scanner opera através de uma funil de três juízes: o ReliabilityJudge, que verifica falhas básicas como timeouts e erros HTTP 500; o RefusalJudge, um filtro baseado em expressões regulares para detectar recusas explícitas; e o SemanticJudge, uma LLM mais robusta que avalia a semântica das respostas. A parte ofensiva é impulsionada pelo GOAT-generator, uma adaptação de uma técnica da Meta que utiliza uma LLM para gerar ataques dinamicamente, adaptando-se às respostas do agente. Este método difere significativamente de listas estáticas de payloads, pois simula um atacante humano que ajusta sua estratégia em tempo real. As vulnerabilidades descobertas incluem Confused Deputy (ASI03) no Agno, onde um payload ofuscado levou o agente a coletar informações para alterar um administrador; Trust Exploitation (ASI08) no LangGraph, onde o agente acreditou em uma falsa aprovação gerencial, auxiliando na violação de políticas de reembolso; e Agentic DoS (ASI06) no OpenAI Demo, onde um único pedido textual recursivo causou falhas no servidor, resultando em 30.4% de timeouts. A causa raiz dessas falhas reside na delegação de controle de segurança para a LLM, em vez de implementá-la em código determinístico no backend. A principal lição arquitetônica é clara: a autorização e a validação devem residir no código backend, com as redes neurais atuando apenas como interfaces semânticas, não como administradores.





