Quem está roubando seu GPU: ataques a endpoints LLM abertos (Ollama, llama.cpp) e o roubo de chaves de nuvem

Ataques a endpoints de Machine Learning abertos, como Ollama e llama.cpp, evoluíram de simples roubo de inferência para exploração de SSRF para roubo de credenciais de nuvem. Este artigo detalha as táticas, ferramentas e atores por trás dessas ameaças.

MundiX News·11 de junho de 2026·5 min de leitura·👁 10 views

A infraestrutura de Inteligência Artificial (IA) está se tornando um alvo cada vez mais atraente para cibercriminosos. Em uma análise aprofundada dos ataques a endpoints de IA, observamos uma evolução preocupante nas táticas empregadas contra modelos de linguagem grandes (LLMs) auto-hospedados. Enquanto na primeira parte desta série exploramos ataques no nível de agentes e ferramentas, agora descemos para o nível de inferência, focando em servidores abertos como Ollama e llama.cpp. O que antes era visto como um simples escaneamento em busca de recursos computacionais gratuitos, como GPUs, agora se transformou em uma ameaça mais sofisticada, com o uso de LLM endpoints como plataformas para roubo de credenciais de nuvem.

Nossa rede de honeypots, distribuída em três países (DE/US/RU), registrou aproximadamente 75.300 requisições a um endpoint Ollama falso em maio. Essa quantidade de tráfego não é mais ruído, mas sim uma categoria madura de ataque, com taxonomias, ferramentas e atores persistentes. A análise desses dados revela um cenário onde 95% das requisições são de escaneamento, buscando ativamente por instâncias abertas de Ollama e llama.cpp na internet. No entanto, as atividades mais preocupantes incluem o abuso de inferência (~3.7%), onde atacantes utilizam os recursos de GPU para gerar conteúdo para spam, phishing ou granjas de conteúdo; o abuso de modelos externos (~0.8%), com tentativas de carregar ou utilizar modelos de terceiros; e, mais alarmantemente, o uso de SSRF (Server-Side Request Forgery) através do endpoint LLM para roubar credenciais de metadados de nuvem (~0.5%).

A principal novidade observada em maio é a exploração de SSRF para roubo de credenciais de nuvem. A lógica por trás disso é que muitas funcionalidades de inferência permitem o acesso a URLs (para carregar modelos, imagens, documentos, etc.). Se um endpoint aceita uma URL do usuário e o servidor a acessa internamente, isso configura um SSRF. Em ambientes de nuvem, o alvo primário para SSRF é o serviço de metadados (geralmente em 169.254.169.254), que fornece credenciais temporárias de IAM para a instância. Essa evolução representa uma mudança qualitativa: de roubo de poder computacional para comprometimento da infraestrutura subjacente. Atingir esse nível de ataque pode levar ao acesso completo a contas de nuvem, como AWS, transformando o que poderia ser considerado um inconveniente em uma violação de segurança catastrófica. Ferramentas como o cliente oficial do Ollama e scanners comerciais como o EchelonGraph-ShadowAIRadar estão sendo utilizados para identificar e explorar essas vulnerabilidades, enquanto atores persistentes, como os associados à ecossistema Stark Industries, demonstram campanhas de longa duração.

Para mitigar esses riscos, é crucial que os administradores de sistemas implementem medidas de segurança robustas. A primeira linha de defesa é nunca expor portas de inferência diretamente à internet. Configure o Ollama e outras ferramentas para escutar apenas em interfaces locais (127.0.0.1) ou em redes privadas, e utilize um reverse proxy com autenticação para acesso externo. Implemente mecanismos de autenticação, como Basic Auth ou mTLS, antes do endpoint de inferência. Para prevenir SSRF, filtre rigorosamente os destinos de URL, bloqueando endereços como 169.254.169.254, endereços de link-local, RFC1918 e localhost. Em ambientes de nuvem, utilize IMDSv2 e configure limites de hop. Além disso, esteja ciente de outros serviços adjacentes, como n8n, Jupyter ou Grafana, que também podem ser alvos. Monitore ativamente as requisições de saída para o serviço de metadados e realize verificações externas regulares (usando Shodan/Censys) para identificar quaisquer exposições indesejadas. A vigilância contínua e a adoção de práticas de segurança proativas são essenciais para proteger sua infraestrutura de IA contra essas ameaças emergentes.

Quem está roubando seu GPU: ataques a endpoints LLM abertos (Ollama, llama.cpp) e o roubo de chaves de nuvem

📤 Compartilhar & Baixar

Artigos Relacionados

Agentes de IA na Cibersegurança: Ameaça ou Aliado?

LLM Sandbox: O Ambiente Isolado para Execução de Código Gerado por LLMs