IA Foi Hackeada. Quem Diria?

IA Foi Hackeada. Quem Diria?

Um artigo detalha uma série de incidentes de segurança envolvendo inteligência artificial, destacando vulnerabilidades em sistemas de IA e seus impactos. O texto aborda ataques de injeção de prompt, exploração de falhas em integrações e a necessidade de medidas de segurança robustas.

MundiX News·10 de maio de 2026·10 min de leitura·👁 1 views

IA Foi Hackeada. Quem Diria?

Nos últimos anos, a segurança da inteligência artificial (IA) tem se tornado uma preocupação crescente. A proliferação de sistemas de IA e suas integrações em diversas áreas, desde o desenvolvimento de software até a análise de dados, abriu novas frentes para ataques cibernéticos. Este artigo explora incidentes recentes e destaca a importância de uma abordagem proativa para a segurança da IA.

De acordo com o relatório IBM Cost of Data Breach Report 2025, 13% de todas as violações corporativas no ano anterior envolveram sistemas ou integrações de IA, com um custo médio de US$ 4,88 milhões por incidente. A OWASP, em sua lista atualizada das principais ameaças para aplicativos LLM, colocou a injeção de prompt em primeiro lugar (LLM01:2025). A Lakera estima que 73% dos agentes de IA implantados em 2025 são vulneráveis a algum tipo de injeção.

Incidentes Notáveis

  • DeepSeek: Banco de dados aberto com um milhão de chats (Janeiro de 2025) Pesquisadores da Wiz Research descobriram uma instância do ClickHouse da DeepSeek aberta sem autenticação. Através da interface web, era possível executar consultas SQL arbitrárias, expondo mais de um milhão de linhas de logs com histórico de bate-papos dos usuários, chaves de API e detalhes do back-end. A DeepSeek permitiu que milhares de empresas usassem seus sistemas, e as empresas estavam configurando integrações com sistemas de produção enquanto seus bate-papos eram lidos por qualquer pessoa com um navegador.

  • LiteLLM → Mercor: Supply chain através de uma biblioteca de IA (Março de 2026) Em 19 de março de 2026, atacantes reescreveram as tags git no repositório trivy-action, substituindo a versão v0.69.4 por uma maliciosa. Em 24 de março, o CI/CD LiteLLM executou uma compilação, puxou o Trivy sem uma versão fixa, e o malware roubou o token PYPI_PUBLISH. Em 40 minutos, as versões litellm 1.82.7 e 1.82.8 com um stealer embutido apareceram no PyPI. O arquivo .pth malicioso (litellm_init.pth, 34628 bytes) foi executado automaticamente toda vez que o Python era iniciado. Em 40 minutos antes do bloqueio do pacote PyPI, ele foi baixado 119.000 vezes. O stealer coletou: chaves SSH, GCP ADC, chaves de acesso AWS, tokens Azure, configurações Kubernetes, chaves de API de arquivos .env, senhas de bancos de dados. A Mercor, uma plataforma avaliada em US$ 10 bilhões, que fornece dados de treinamento para grandes empresas de IA, usou o LiteLLM em produção. Como resultado do ataque, 4 TB de dados foram vazados: 939 GB de código-fonte da plataforma, 211 GB de banco de dados de usuários, 3 TB de gravações de vídeo de entrevistas e documentos de verificação de identidade. Os hackers colocaram o dump à venda.

  • Vercel: Agente de IA como vetor de ataque via OAuth (Abril de 2026) Um funcionário conectou um assistente de IA ao seu Google Workspace de trabalho através do fluxo OAuth padrão. O agente de IA solicitou um conjunto padrão de permissões: leitura de e-mail, acesso ao Drive, calendário. O funcionário clicou em “Permitir” e esqueceu. Através desse token OAuth, os invasores extraíram correspondências com chaves de produção, configurações do Google Drive e partes do código-fonte de arquivos anexados. Os hackers colocaram um dump do código-fonte e variáveis de ambiente da Vercel à venda por US$ 2 milhões no BreachForums.

  • GitHub Copilot: RCE e roubo de dados via injeção de prompt (Agosto de 2025) A vulnerabilidade CVE-2025-53773 permitiu a execução remota de código (RCE) através de injeção de prompt, explorando o arquivo .vscode/settings.json. A CVE-2025-59145 (CamoLeak) permitiu o roubo de segredos através de comentários markdown invisíveis que continham instruções maliciosas. O Copilot processava essas instruções e, através do mecanismo de renderização de imagens, vazava chaves de API e código-fonte de repositórios privados.

  • Ataques a agentes de IA da Anthropic, Google e Microsoft via GitHub (Outubro de 2025) O pesquisador Aonan Guan invadiu os agentes de IA das três empresas através de suas integrações do GitHub Actions. A técnica envolveu injeção de prompt, com mecanismos diferentes em cada caso, resultando no vazamento de informações sensíveis e tokens de acesso.

  • Microsoft 365 Copilot: EchoLeak e Reprompt (2025–2026) O EchoLeak (CVE-2025-32711) permitiu que um atacante inserisse um payload malicioso no corpo de um e-mail ou documento, fazendo com que o Microsoft 365 Copilot extraísse dados privados da caixa de correio do usuário. O Reprompt (CVE-2026-26133) permitiu que um invasor assumisse o controle da sessão do Copilot com um único clique em um link legítimo da Microsoft, permitindo o acesso a e-mails, conversas do Teams e documentos do SharePoint.

  • Ataques maciços de jailbreak (2025) Técnicas como Sockpuppeting e Policy Puppetry foram usadas para contornar as proteções em modelos de IA, permitindo que os atacantes contornassem as restrições e obtivessem acesso não autorizado.

Estrutura de Ataques a Agentes de IA

O Google DeepMind publicou um estudo em 2025, “AI Agent Traps”, que sistematiza os vetores de ataque a agentes de IA autônomos. O documento descreve seis categorias de manipulações que funcionam não através de vulnerabilidades de código, mas através da natureza dos próprios LLMs:

  1. Content Injection (Injeção de Conteúdo): Instruções maliciosas são inseridas em dados processados pelo agente (páginas da web, e-mails, documentos, PDFs). O agente não consegue distinguir conteúdo legítimo de instruções do atacante.
  2. Semantic Manipulation (Manipulação Semântica): Reformulação de solicitações maliciosas usando contextos autoritativos (ex: “SYSTEM:”, “[TRUST]”, “Developer mode”). O atacante imita o formato das instruções do sistema.
  3. Cognitive State Attacks (Ataques ao Estado Cognitivo): Manipulações através de várias etapas de diálogo. O modelo “concorda” gradualmente com as instruções do atacante, executando solicitações que seriam rejeitadas diretamente.
  4. Behavioural Control (Controle Comportamental): Instruções que alteram o comportamento de longo prazo do agente (ex: “Quando encontrar X, sempre faça Y”). O agente memoriza a regra e a aplica em sessões futuras, criando um backdoor persistente.
  5. Systemic Attacks (Ataques Sistêmicos): Exploração da arquitetura (ex: RAG poisoning, ataques ao uso de ferramentas). Se o agente tiver acesso ao GitHub, e-mail, bancos de dados, o atacante obtém esses acessos através da injeção de conteúdo.
  6. Human-in-the-Loop Bypasses (Bypass Humano): Ataques às confirmações do usuário. O agente formula a solicitação de confirmação de forma que o usuário clique automaticamente em “Sim”, ou usa canais paralelos para evitar a necessidade de confirmação.

O Que Fazer?

A boa notícia é que a maioria desses problemas pode ser resolvida com disciplina: auditoria de integrações de IA, versões fixas de dependências e um modelo de confiança explícito no nível da arquitetura. As ferramentas existem, mas raramente são aplicadas a essa nova classe de entidades. A profissão de DevOps está passando por um renascimento, com a expertise em pipelines de verificação de artefatos, gerenciamento de segredos, políticas de acesso e monitoramento de anomalias sendo diretamente aplicável ao contexto da IA.

📤 Compartilhar & Baixar