A inteligência artificial (IA) está transformando radicalmente as abordagens de defesa e os métodos de ataque. Com o avanço das tecnologias, os modelos de IA são capazes de processar e analisar vastos volumes de dados em tempo real, um poder explorado tanto por empresas quanto por cibercriminosos. Relatórios de centros de análise indicam um aumento significativo, por vezes multiplicando-se em poucos anos, no número de incidentes relacionados a ataques contra sistemas de IA. Estamos à beira de uma nova corrida armamentista, onde algoritmos de aprendizado de máquina (ML) atuam como escudo e espada.
Análises do framework MITRE ATT&CK revelam que o potencial de uso da IA já se estende a mais de 25% das técnicas empregadas por hackers. Programas maliciosos gerados por IA podem contornar as defesas atuais, escanear infraestruturas com velocidade aprimorada e executar ataques complexos contra sistemas, expandindo consideravelmente a superfície de ataque. Por exemplo, escaneamentos automáticos de infraestrutura já atingem dezenas de milhares de tentativas por segundo. Métodos tradicionais de ciberdefesa, como antivírus baseados em assinatura e firewalls de aplicação web (WAFs) padrão, mostram-se impotentes contra tais ataques, assim como falham em detectar ataques direcionados a modelos de IA.
Para construir defesas eficazes, é crucial compreender a origem das ameaças. É aqui que entra o framework MITRE Adversarial Threat Landscape for Artificial-Intelligence Systems (ATLAS™). Diferentemente de seu precursor, o MITRE ATT&CK, o ATLAS foca em táticas e técnicas de ataque específicas para aprendizado de máquina (ML). O MITRE ATLAS foi desenvolvido para avaliar ameaças específicas a sistemas de IA e, em sua versão mais recente, inclui mais de 170 técnicas de ataque direcionadas a sistemas de IA e ML, um aumento expressivo em relação às 84 técnicas registradas poucos meses antes. A estrutura do ATLAS abrange táticas que cobrem todo o ciclo de vida de um ataque, desde a Reconnaissance (Reconhecimento) até o Impact (Impacto).
As táticas-chave para a compreensão incluem:
- Initial Access (AML.TA0004): Focada em obter acesso inicial a um sistema de ML ou aplicação LLM. Inclui técnicas que exploram vulnerabilidades no processamento de linguagem natural e na interação com o usuário, bem como o processamento incorreto de dados de entrada para executar instruções não autorizadas. Entre as técnicas mais comuns e perigosas estão LLM Prompt Injection (AML.T0051) e Phishing (AML.T0052).
- Execution (AML.TA0005): Envolve a execução de código malicioso ou a manipulação de um modelo. Abrange técnicas como Prompt Injection (AML.T0051) e a comprometimento de plugins (LLM Plugin Compromise, AML.T0053).
- ML Attack Staging (AML.TA0001): Refere-se à preparação para o ataque, como o reconhecimento do modelo (Discover AI Model Family, AML.T0014 / AML.T0013), a criação de exemplos adversariais (AML.T0043) ou o envenenamento de contexto.
A aplicação prática do ATLAS para modelagem de ameaças envolve uma análise sistemática das táticas e técnicas para entender como um atacante pode comprometer cada componente do sistema. Complementando o ATLAS, o framework SAFE-AI, também do MITRE, foca na segurança de sistemas de IA e auxilia na defesa sistemática. O SAFE-AI introduz quatro Elementos de Sistema (System Elements) que são o foco da proteção: Ambiente de IA (Environment), Plataforma de IA (AI Platform), Modelo de IA (AI Model) e Dados de IA (AI Data). Essa abordagem permite uma análise abrangente de riscos em todo o ciclo de vida dos sistemas de IA, desde o desenvolvimento e treinamento até a operação e monitoramento.
Por exemplo, a tática Poison Training Data (AML.T0020) afeta primariamente o elemento 'Dados de IA', mas pode ser executada através de vulnerabilidades no 'Ambiente'. Compreender essas interconexões é fundamental para construir defesas em camadas e proativas. Frequentemente, modelos de IA recebem acesso a dados corporativos e pessoais de funcionários e clientes para acelerar o processamento de solicitações e análises. Isso representa um risco potencial de vazamento de dados confidenciais e pessoais, violando leis de proteção de dados. É essencial identificar quais técnicas do MITRE ATLAS podem ser usadas por atacantes para obter ou manipular dados corporativos e pessoais, a fim de estabelecer a linha de defesa correta.
A tabela a seguir resume táticas e técnicas do MITRE ATLAS, juntamente com recomendações de prevenção:
| Tática | Técnica | Descrição da Técnica | Recomendações de Prevenção |
|---|---|---|---|
| AML.TA0002 Reconnaissance | AML.T0001 Discover ML Artifacts | Adversários buscam repositórios públicos, documentação e APIs para entender a arquitetura de modelos e dados de treinamento. | Implementar políticas de divulgação mínima sobre modelos (SAFE-AI: Environment + AI Data); monitorar sondagens de API, arquitetura de modelo e requisições anômalas à infraestrutura (SIEM); restringir acesso público a repositórios e documentação; realizar varreduras de ML Red Teaming em modelos e artefatos públicos. |
| AML.TA0002 Reconnaissance | AML.T0002 Search for Victim's Publicly Available Research Materials | Busca por materiais de pesquisa públicos da vítima (artigos, preprints) para entender a arquitetura do modelo e conjuntos de dados. | Restringir a divulgação de informações sensíveis sobre funcionalidades do modelo em documentos e artigos públicos. |
| AML.TA0002 Reconnaissance | AML.T0006 Active Scanning | Escaneamento ativo da infraestrutura ou aplicações de IA para detecção de vulnerabilidades. | Utilizar WAF, sistemas de detecção de intrusão (IDS/IPS) e proteção contra DDoS; configurar limitação de taxa de requisições (rate limiting); realizar varreduras de ML Red Teaming em modelos de IA utilizados para identificar vulnerabilidades. |
| AML.TA0012 ML Model Access | AML.T0040 AI Model Inference API Access | Obtenção de acesso a interfaces de predição (inferência) de modelos para analisar seu comportamento, estrutura e realizar reconhecimento. | Utilizar autenticação forte (OAuth2, API keys), limitação baseada em papéis (RBAC), criptografia de tráfego e monitoramento de anomalias de chamadas; implementar AI Firewall (SAFE-AI: AI Platform/Tools). |
| AML.TA0003 Resource Development (Supply Chain) | AML.T0010 ML Supply Chain Compromise | Comprometimento da cadeia de suprimentos de IA, incluindo bibliotecas de terceiros, modelos pré-treinados e dados. | Implementar verificação de SBOM/AIBOM, verificação de assinaturas digitais; realizar controle de integridade de componentes de terceiros. |
| AML.TA0003 Resource Development (Access) | AML.T0018 Backdoor ML Model | Inserção de um backdoor em um modelo de aprendizado de máquina, que é ativado por um gatilho específico. | Utilizar análise estática e dinâmica de modelos; realizar auditoria de aprendizado por transferência (transfer learning); implementar monitoramento de saída do modelo para gatilhos ocultos. |
| AML.TA0001 ML Attack Staging | AML.T0020 Poison Training Data | Introdução intencional de dados manipulados ou enviesados no conjunto de treinamento para criar backdoors ou influenciar o comportamento. | Implementar validação de dados de entrada (SAFE-AI: AI Data), monitoramento de proveniência, privacidade diferencial e auditoria de vieses. |
| AML.TA0004 / AML.TA0005 Initial Access | AML.T0051 LLM Prompt Injection | Manipulação do comportamento de LLMs através de prompts especialmente preparados para contornar instruções ou extrair dados. | Aplicar hierarquia de prompts do sistema, filtros de entrada (Guardrails), limitação de permissões de plugins (SAFE-AI: AI Platform/Tools); embutir AI Firewall em pipelines ETL para bloquear injeções. |
| AML.TA0005 Execution | AML.T0054 LLM Jailbreak | Contorno de restrições de segurança e filtros éticos de LLMs para obter conteúdo proibido. | Realizar controle de acesso, monitoramento de anomalias de saída, filtros de conteúdo robustos (Guardrails); realizar auditoria de logs de saída de LLM e testes regulares de jailbreak. |
| AML.TA0006 Persistence | AML.T0054 Modify AI Agent Configuration | Modificação das configurações de um agente de IA autônomo para manter acesso persistente. | Implementar controle de integridade de configurações, princípio de privilégio mínimo e versionamento de alterações; realizar auditoria automática de alterações (SAFE-AI: AI Platform/Tools). |
| AML.TA0007 Defense Evasion | AML.T0015 Evade ML Model | Criação de dados de entrada que levam um modelo de IA a cometer erros ou a falhar na detecção de informações maliciosas. | Aplicar validação de dados (SI-10), atualizar parâmetros do modelo, utilizar treinamento adversarial. |
| AML.TA0008 Defense Evasion | System Prompt Leakage | Divulgação de instruções internas (prompt do sistema), auxiliando atacantes a contornar restrições. | Utilizar Guardrails externos em vez de regras no prompt, randomizar prompts, mascarar a saída; proibir a saída direta de instruções do sistema. |
| AML.TA0010 Exfiltration | AML.T0057 LLM Data Leakage | Vazamento ou divulgação de informações confidenciais (PII, senhas) através de respostas do modelo ou logs. | Implementar AI Firewall que permite mascarar dados e realizar filtragem contextual da saída (SAFE-AI: AI Data); utilizar privacidade diferencial. |
| AML.TA0005 Execution | Excessive Agency | Concessão de privilégios excessivos a agentes de IA, permitindo-lhes executar ações perigosas em sistemas de terceiros. | Aplicar o princípio de privilégio mínimo, Human-in-the-Loop, limitação de funções de API; realizar auditoria de todos os agentes quanto a privilégios excessivos; criar uma matriz de permissões (SAFE-AI: Environment + AI Platform). |
| AML.TA0011 Impact | AML.T0029 / AML.T0031 Denial of ML Service | Interrupção da disponibilidade de serviços de IA através da sobrecarga de recursos computacionais ou esgotamento de cotas. | Utilizar rate limiting, proteção contra DoS (SC-05), monitoramento de exemplos de esponja (sponge examples). |
A escolha dessas táticas e técnicas da matriz MITRE ATLAS é ditada pela especificidade dos ataques, onde o atacante busca não apenas roubar dados, mas comprometer o modelo para manipular suas decisões (por exemplo, aprovar empréstimos fraudulentos). Essas técnicas cobrem toda a cadeia de ataque, 'da inteligência ao impacto', e um AI/LLM Firewall, juntamente com defesas 'clássicas', bloqueia as ações do atacante, impedindo que o ataque avance para a próxima tática. É crucial implementar auditoria contínua de incidentes e logs de interação com modelos de IA, controle rigoroso de acessos e privilégios mínimos, além de testes de penetração regulares (pentests) e varreduras de modelos com scanners especializados de ML Red Teaming para identificar e corrigir vulnerabilidades precocemente.
Para proteger o Ambiente de IA (Environment), recomenda-se auditorias regulares de segmentos de rede e direitos de acesso a armazenamentos de dados, controle de integridade de configurações, uso de IDS/IPS e monitoramento de anomalias para detectar atividades suspeitas, e a aplicação do princípio Zero Trust para segmentação de ambiente, limitação de privilégios e verificação contínua de acesso. Atenção especial deve ser dada à proteção contra reconhecimento e comprometimento de infraestrutura.
Para proteger a Plataforma de IA (AI Platform), é necessário garantir a atualização regular de todas as bibliotecas e ferramentas com verificação de vulnerabilidades, restringir a instalação e execução de pacotes externos apenas a fontes confiáveis, implementar gerenciamento de mudanças para a plataforma, incluindo pipelines de CI/CD, e utilizar ferramentas de auditoria, logging e monitoramento SIEM para todas as operações da plataforma de IA.
Para proteger os Modelos de IA (AI Model), recomenda-se a implementação de um AI/LLM Firewall para proteção contra jailbreaks e injeções de prompt, controle de versão e integridade dos modelos, testes de resistência a ataques e anomalias, e limitação de acesso aos modelos através de mecanismos de autenticação e autorização.
Para proteger os Dados de IA (AI Data), é importante usar o AI/LLM Firewall para aplicar métodos de anonimização e mascaramento de dados sensíveis, controlar as fontes de dados e verificar sua integridade e correção, além de organizar o monitoramento contra envenenamento de dados e padrões anômalos em conjuntos de treinamento.
O novo patamar de defesa: AI Firewall
O LLM/AI Firewall é uma camada de proteção especializada que opera no nível da aplicação, analisando o tráfego entre o usuário e o modelo de IA. Sua função não é apenas bloquear endereços IP, mas compreender a semântica de prompts e respostas. Tecnicamente, o LLM/AI Firewall é integrado ao fluxo de processamento de requisições. Ele verifica o prompt de entrada em relação às políticas de segurança e ataques conhecidos. Ao detectar uma ameaça, a requisição pode ser bloqueada, modificada (sanitizada) ou enviada para verificação humana adicional. Da mesma forma, a resposta do modelo é verificada para prevenir vazamentos de dados que um atacante possa ter causado por injeção indireta (Indirect Prompt Injection).
O AI/LLM Firewall não se limita à proteção de dados; ele é capaz de detectar tentativas de um atacante de extrair informações ocultas sobre políticas internas, configurações ou arquiteturas do sistema que poderiam ser usadas para comprometer toda a infraestrutura. Um exemplo de tal ataque seria um atacante, através de um prompt complexo, induzir um LLM a revelar instruções ou regras ocultas do sistema (System Prompt Leakage). Isso pode envolver a formação de um cenário multifásico onde requisições para obter informações sobre configurações de filtros, restrições de acesso ou lógica interna de processamento de dados são mascaradas. O objetivo é obter acesso às políticas e configurações internas do modelo para contornar restrições, preparar ataques futuros ou roubar dados.
O método de proteção envolve o INFERA AI.Firewall analisando a semântica da requisição, identificando formulações suspeitas e bloqueando ou redirecionando o prompt para verificação por um operador. Atualmente, é crucial proteger não apenas as interações diretas dos usuários com LLMs, mas também as ações de agentes de IA autônomos, que se tornaram entidades digitais completas e são amplamente utilizados no ambiente corporativo. Agentes de IA autônomos não apenas geram texto; eles planejam ações, invocam diversas ferramentas, interagem com bancos de dados internos, APIs, sistemas RAG e outros agentes.
O AI/LLM Firewall controla os agentes diretamente através de APIs. Cada chamada de ferramenta (tool call) iniciada por um agente é interceptada na interface da API. O sistema verifica a conformidade da chamada com a intenção original do usuário, as políticas corporativas e analisa o contexto de toda a cadeia de ações. A segurança da informação (IS) deve ter visibilidade completa: o que o agente fez, por que tomou essa decisão, quais dados utilizou e a quais sistemas acessou. Essa observabilidade transforma o agente de uma 'caixa preta' em uma entidade totalmente transparente e controlável.
A segurança da IA exige uma abordagem holística, que inclui a implementação de novas ferramentas de proteção como o AI/LLM Firewall, auditoria e configuração de regras e direitos de acesso, controle de integridade e versões de modelos, testes de penetração regulares e monitoramento de anomalias, além de treinamento de funcionários e a adoção de políticas de divulgação mínima de informações e o princípio de privilégio mínimo. Somente essa abordagem sistêmica permite prevenir ataques de forma eficaz e proteger a infraestrutura, os dados, os modelos e as plataformas de IA.
