Evitando Prompt Injection: A Importância da Verificação de Habilidades em IA
A crescente adoção de 'skills' em plataformas de IA levanta preocupações de segurança. Este artigo explora as vulnerabilidades, como o prompt injection, e apresenta o SkillSpector da NVIDIA como uma solução para mitigar riscos antes da instalação.
MundiX News·02 de julho de 2026·6 min de leitura·👁 1 views
Em artigos anteriores, discutimos o uso de Modelos de Linguagem Grandes (LLMs) por hackers e prometemos abordar como proteger seu espaço de trabalho. É hora de mergulharmos nesse tema.
Quando foi a última vez que você verificou uma biblioteca em busca de vulnerabilidades? Ou o software que você instala e utiliza? Se a resposta for "quase nunca", você não está sozinho. A verdade é que, embora a criação de suas próprias 'skills' seja uma evolução natural, o uso de 'skills' de código aberto (OSS) também é comum, especialmente quando elas vão além de um simples arquivo Markdown e se tornam ferramentas de interação completas. No entanto, um 'skill' não é apenas uma configuração ou um 'prompt' em um arquivo SKILL.md; ele pode conter código executável e, crucialmente, ser executado com suas próprias permissões.
Edgar Sipki, um engenheiro com mais de uma década de experiência em sistemas backend e ferramentas de IA/LLM, destaca a importância dessa verificação. Ele compartilha seus conhecimentos em seu canal do Telegram, focando em ferramentas e abordagens práticas de IA para desenvolvimento. A preocupação com a segurança dos 'skills' não é infundada. Uma pesquisa abrangente em 42.447 'skills' de marketplaces revelou que 26,1% contêm vulnerabilidades e 5,2% são provavelmente maliciosos. Isso significa que um em cada quatro 'skills' possui uma brecha de segurança, e um em cada vinte pode conter 'backdoors', como injeções de prompt (prompt injection), roubo de variáveis de ambiente com suas chaves, ou exfiltração de contexto – um conjunto completo de riscos.
Adicionalmente, 'skills' que incluem scripts executáveis são 2,12 vezes mais propensas a serem vulneráveis. Se o 'skill' estiver em formatos como .py ou .sh, a verificação se torna ainda mais essencial. Felizmente, existem ferramentas para mitigar esses riscos. A NVIDIA lançou o SkillSpector, um scanner de 'skills' que pode ser utilizado antes da instalação. Ele pode ser instalado com um único comando: uv tool install git+https://github.com/NVIDIA/skillspector.git (alternativas incluem compilação a partir do código-fonte ou Docker). Após a instalação, o uso é simples: skillspector scan <URL_do_repositório_do_skill> --format terminal.
O SkillSpector oferece diversas funcionalidades: aceita como entrada URLs do Git, arquivos ZIP, diretórios ou arquivos SKILL.md individuais. Ele detecta mais de 64 padrões em 16 categorias (que já aumentaram para 68 em 17 categorias), incluindo injeções, exfiltração de dados, typosquatting, envenenamento de ferramentas MCP (Meta-Command Processor) e mais. O processo de análise ocorre em duas etapas: uma análise estática rápida (usando regex, AST, YARA e OSV.dev) seguida por uma análise opcional baseada em LLM para avaliar a intenção. A saída fornece um risk_score de 0 a 100, um veredito (SAFE, CAUTION, DO_NOT_INSTALL) e um relatório em diversos formatos (terminal, JSON, Markdown, SARIF).
Uma dúvida comum é se o próprio scanner pode ser vítima de prompt injection. A resposta é não. A análise estática é a primeira etapa e é determinística; ela não "lê" instruções, mas sim corresponde a padrões. Regex, AST e YARA são imunes a manipulações. O LLM, neste contexto, atua como um classificador, não como um agente com capacidade de ação. Ele não possui acesso a sistemas de arquivos ou redes, e sua única saída é um veredito estruturado (JSON). Tentativas de injeção, como a instrução "ignore previous instructions", na verdade, acionam padrões de Instruction Override ou Hidden Instructions, destacando o 'skill' como suspeito. O SkillSpector trata o conteúdo do 'skill' como dados para análise, não como comandos a serem executados – uma distinção crucial que falta em agentes vulneráveis, que podem interpretar texto alheio como suas próprias instruções.
Em resumo, o SkillSpector aumenta suas chances de segurança, mas a responsabilidade final ainda recai sobre o usuário. A automação é a chave. A principal dificuldade identificada em pesquisas não é a falta de ferramentas, mas o esquecimento de utilizá-las. Para combater isso, recomenda-se a criação de um alias que automatize o processo de verificação e instalação. Por exemplo, um alias safeskill pode resolver o repositório, executar o SkillSpector e instalar o 'skill' apenas se ele passar na verificação. Se o scanner sinalizar um risco, o alias pode solicitar confirmação antes de prosseguir. Para ambientes onde o acesso direto ao terminal é limitado, como em alguns modos de agentes de IA, é possível criar um 'skill' que force o agente a verificar novos 'skills' antes de instalá-los.
Concluindo, 'skills' representam um avanço significativo, e descartá-los seria um erro. A lição mais importante é "separar dados de instruções", uma falha que ainda aflige muitos sistemas. Lembre-se que 'skills' e agentes frequentemente operam com suas permissões totais, tornando a verificação indispensável. Permita que seus agentes sejam pensadores cautelosos, não executores cegos.
🛡️⚡
Pare de pesquisar. Comece a hackear.
O MundiX é seu copiloto de pentest com IA: comandos exatos, análise de outputs e próximo passo na kill chain — em segundos.
Sem cartão para começar · Planos a partir de R$49/mês
Em artigos anteriores, discutimos o uso de Modelos de Linguagem Grandes (LLMs) por hackers e prometemos abordar como proteger seu espaço de trabalho. É hora de mergulharmos nesse tema.
Quando foi a última vez que você verificou uma biblioteca em busca de vulnerabilidades? Ou o software que você instala e utiliza? Se a resposta for "quase nunca", você não está sozinho. A verdade é que, embora a criação de suas próprias 'skills' seja uma evolução natural, o uso de 'skills' de código aberto (OSS) também é comum, especialmente quando elas vão além de um simples arquivo Markdown e se tornam ferramentas de interação completas. No entanto, um 'skill' não é apenas uma configuração ou um 'prompt' em um arquivo SKILL.md; ele pode conter código executável e, crucialmente, ser executado com suas próprias permissões.
Edgar Sipki, um engenheiro com mais de uma década de experiência em sistemas backend e ferramentas de IA/LLM, destaca a importância dessa verificação. Ele compartilha seus conhecimentos em seu canal do Telegram, focando em ferramentas e abordagens práticas de IA para desenvolvimento. A preocupação com a segurança dos 'skills' não é infundada. Uma pesquisa abrangente em 42.447 'skills' de marketplaces revelou que 26,1% contêm vulnerabilidades e 5,2% são provavelmente maliciosos. Isso significa que um em cada quatro 'skills' possui uma brecha de segurança, e um em cada vinte pode conter 'backdoors', como injeções de prompt (prompt injection), roubo de variáveis de ambiente com suas chaves, ou exfiltração de contexto – um conjunto completo de riscos.
Adicionalmente, 'skills' que incluem scripts executáveis são 2,12 vezes mais propensas a serem vulneráveis. Se o 'skill' estiver em formatos como .py ou .sh, a verificação se torna ainda mais essencial. Felizmente, existem ferramentas para mitigar esses riscos. A NVIDIA lançou o SkillSpector, um scanner de 'skills' que pode ser utilizado antes da instalação. Ele pode ser instalado com um único comando: uv tool install git+https://github.com/NVIDIA/skillspector.git (alternativas incluem compilação a partir do código-fonte ou Docker). Após a instalação, o uso é simples: skillspector scan <URL_do_repositório_do_skill> --format terminal.
O SkillSpector oferece diversas funcionalidades: aceita como entrada URLs do Git, arquivos ZIP, diretórios ou arquivos SKILL.md individuais. Ele detecta mais de 64 padrões em 16 categorias (que já aumentaram para 68 em 17 categorias), incluindo injeções, exfiltração de dados, typosquatting, envenenamento de ferramentas MCP (Meta-Command Processor) e mais. O processo de análise ocorre em duas etapas: uma análise estática rápida (usando regex, AST, YARA e OSV.dev) seguida por uma análise opcional baseada em LLM para avaliar a intenção. A saída fornece um risk_score de 0 a 100, um veredito (SAFE, CAUTION, DO_NOT_INSTALL) e um relatório em diversos formatos (terminal, JSON, Markdown, SARIF).
Uma dúvida comum é se o próprio scanner pode ser vítima de prompt injection. A resposta é não. A análise estática é a primeira etapa e é determinística; ela não "lê" instruções, mas sim corresponde a padrões. Regex, AST e YARA são imunes a manipulações. O LLM, neste contexto, atua como um classificador, não como um agente com capacidade de ação. Ele não possui acesso a sistemas de arquivos ou redes, e sua única saída é um veredito estruturado (JSON). Tentativas de injeção, como a instrução "ignore previous instructions", na verdade, acionam padrões de Instruction Override ou Hidden Instructions, destacando o 'skill' como suspeito. O SkillSpector trata o conteúdo do 'skill' como dados para análise, não como comandos a serem executados – uma distinção crucial que falta em agentes vulneráveis, que podem interpretar texto alheio como suas próprias instruções.
Em resumo, o SkillSpector aumenta suas chances de segurança, mas a responsabilidade final ainda recai sobre o usuário. A automação é a chave. A principal dificuldade identificada em pesquisas não é a falta de ferramentas, mas o esquecimento de utilizá-las. Para combater isso, recomenda-se a criação de um alias que automatize o processo de verificação e instalação. Por exemplo, um alias safeskill pode resolver o repositório, executar o SkillSpector e instalar o 'skill' apenas se ele passar na verificação. Se o scanner sinalizar um risco, o alias pode solicitar confirmação antes de prosseguir. Para ambientes onde o acesso direto ao terminal é limitado, como em alguns modos de agentes de IA, é possível criar um 'skill' que force o agente a verificar novos 'skills' antes de instalá-los.
Concluindo, 'skills' representam um avanço significativo, e descartá-los seria um erro. A lição mais importante é "separar dados de instruções", uma falha que ainda aflige muitos sistemas. Lembre-se que 'skills' e agentes frequentemente operam com suas permissões totais, tornando a verificação indispensável. Permita que seus agentes sejam pensadores cautelosos, não executores cegos.
📤 Compartilhar & Baixar
🧰 Ferramentas recomendadas
Divulgação: alguns links são patrocinados. Podemos receber comissão se você comprar — sem custo extra para você. Só indicamos o que faz sentido para a comunidade.