Envolvendo Modelos de ML: Testando Verificações Integradas do Hugging Face Contra um Único Scanner
Uma análise aprofundada dos testes de segurança em modelos de Machine Learning, comparando as verificações integradas do Hugging Face com a ferramenta ModelAudit. O artigo explora falsos positivos, falsos negativos e a eficácia de diferentes métodos de detecção de ameaças.
MundiX News·11 de maio de 2026·10 min de leitura·👁 4 views
A segurança em modelos de Machine Learning (ML) é um campo em constante evolução, especialmente com o crescente número de modelos disponíveis em plataformas como o Hugging Face. A capacidade de armazenar e compartilhar modelos de forma eficiente é crucial, mas também abre portas para vulnerabilidades. Este artigo se aprofunda na comparação entre as verificações de segurança integradas na plataforma Hugging Face e uma ferramenta externa, o ModelAudit, investigando a eficácia de cada uma em identificar modelos potencialmente maliciosos.
O primeiro experimento foca em escanear um subconjunto de modelos do Hugging Face que estão serializados em formatos de armazenamento considerados mais perigosos. A metodologia envolveu a seleção de modelos com base em critérios como a presença de artefatos em formatos de alto risco (como .pkl, .pt, .bin), tamanho total do repositório, número de downloads recentes e se o repositório é aberto. Ao todo, 246 modelos foram escaneados, resultando em 271 alertas de segurança de nível crítico. Uma análise detalhada dos alertas mais frequentes revelou que muitas verificações, como pickle_check e pytorch_zip_check, geraram um número elevado de falsos positivos. Por exemplo, a popular modelo Ultralytics/YOLO11 recebeu 728 alertas, sendo que a maioria se devia a referências a funções como __builtin__.getattr e __builtin__.set, que, embora possam ser usadas em ataques, também são comuns em modelos legítimos. Isso sugere que a simples presença dessas referências não é um indicador definitivo de malícia, e que a lógica de detecção precisa ser mais sofisticada para distinguir entre uso benigno e malicioso.
O segundo experimento muda o foco para modelos explicitamente marcados como maliciosos ou suspeitos pelos próprios autores ou pela comunidade, utilizando palavras-chave como "malicious", "ACE" "PoC" e "deserialization" "PoC" para a busca. Após uma filtragem inicial, uma lista de modelos com alta probabilidade de serem maliciosos foi submetida ao ModelAudit. Os resultados foram então comparados com as verificações de segurança já executadas pelo Hugging Face. Uma observação interessante foi a diferença na distribuição de alertas: o segundo experimento apresentou uma porcentagem significativamente maior de alertas críticos em comparação com o primeiro, e menos modelos com um número excessivamente alto de alertas. No entanto, a comparação direta entre as detecções do ModelAudit e as verificações do Hugging Face revelou discrepâncias. Em alguns casos, o Hugging Face sinalizou perigo onde o ModelAudit falhou, e vice-versa. Isso destaca a complexidade da detecção de ameaças em modelos de ML e a necessidade de um arsenal de ferramentas, em vez de confiar em uma única solução. A análise também abordou problemas específicos, como a detecção de assinaturas executáveis em arquivos de modelo (pytorch_binary_check), que frequentemente resultam em falsos positivos, e a detecção de código JIT/Script em modelos TorchScript, que pode ser acionada por nomes de atributos comuns como "input".
Em conclusão, a "ruído" gerado por muitas verificações de segurança, especialmente aquelas que buscam por padrões genéricos ou funções com duplo uso, pode levar a um grande número de falsos positivos. Embora falsos positivos sejam preferíveis a falsos negativos, pois permitem triagem e refinamento das regras, eles também podem obscurecer ameaças reais e sobrecarregar os analistas de segurança. A comparação entre o ModelAudit e as verificações integradas do Hugging Face demonstra que nenhuma ferramenta é perfeita. A abordagem mais eficaz para garantir a segurança dos modelos de ML envolve a combinação de diferentes ferramentas de escaneamento, a análise manual aprofundada de alertas críticos e a constante atualização das regras de detecção para acompanhar as táticas em evolução dos atacantes. A colaboração entre pesquisadores, desenvolvedores de ferramentas e a comunidade de ML é fundamental para construir um ecossistema mais seguro.
🛡️⚡
Pare de pesquisar. Comece a hackear.
O MundiX é seu copiloto de pentest com IA: comandos exatos, análise de outputs e próximo passo na kill chain — em segundos.
Sem cartão para começar · Planos a partir de R$49/mês
A segurança em modelos de Machine Learning (ML) é um campo em constante evolução, especialmente com o crescente número de modelos disponíveis em plataformas como o Hugging Face. A capacidade de armazenar e compartilhar modelos de forma eficiente é crucial, mas também abre portas para vulnerabilidades. Este artigo se aprofunda na comparação entre as verificações de segurança integradas na plataforma Hugging Face e uma ferramenta externa, o ModelAudit, investigando a eficácia de cada uma em identificar modelos potencialmente maliciosos.
O primeiro experimento foca em escanear um subconjunto de modelos do Hugging Face que estão serializados em formatos de armazenamento considerados mais perigosos. A metodologia envolveu a seleção de modelos com base em critérios como a presença de artefatos em formatos de alto risco (como .pkl, .pt, .bin), tamanho total do repositório, número de downloads recentes e se o repositório é aberto. Ao todo, 246 modelos foram escaneados, resultando em 271 alertas de segurança de nível crítico. Uma análise detalhada dos alertas mais frequentes revelou que muitas verificações, como pickle_check e pytorch_zip_check, geraram um número elevado de falsos positivos. Por exemplo, a popular modelo Ultralytics/YOLO11 recebeu 728 alertas, sendo que a maioria se devia a referências a funções como __builtin__.getattr e __builtin__.set, que, embora possam ser usadas em ataques, também são comuns em modelos legítimos. Isso sugere que a simples presença dessas referências não é um indicador definitivo de malícia, e que a lógica de detecção precisa ser mais sofisticada para distinguir entre uso benigno e malicioso.
O segundo experimento muda o foco para modelos explicitamente marcados como maliciosos ou suspeitos pelos próprios autores ou pela comunidade, utilizando palavras-chave como "malicious", "ACE" "PoC" e "deserialization" "PoC" para a busca. Após uma filtragem inicial, uma lista de modelos com alta probabilidade de serem maliciosos foi submetida ao ModelAudit. Os resultados foram então comparados com as verificações de segurança já executadas pelo Hugging Face. Uma observação interessante foi a diferença na distribuição de alertas: o segundo experimento apresentou uma porcentagem significativamente maior de alertas críticos em comparação com o primeiro, e menos modelos com um número excessivamente alto de alertas. No entanto, a comparação direta entre as detecções do ModelAudit e as verificações do Hugging Face revelou discrepâncias. Em alguns casos, o Hugging Face sinalizou perigo onde o ModelAudit falhou, e vice-versa. Isso destaca a complexidade da detecção de ameaças em modelos de ML e a necessidade de um arsenal de ferramentas, em vez de confiar em uma única solução. A análise também abordou problemas específicos, como a detecção de assinaturas executáveis em arquivos de modelo (pytorch_binary_check), que frequentemente resultam em falsos positivos, e a detecção de código JIT/Script em modelos TorchScript, que pode ser acionada por nomes de atributos comuns como "input".
Em conclusão, a "ruído" gerado por muitas verificações de segurança, especialmente aquelas que buscam por padrões genéricos ou funções com duplo uso, pode levar a um grande número de falsos positivos. Embora falsos positivos sejam preferíveis a falsos negativos, pois permitem triagem e refinamento das regras, eles também podem obscurecer ameaças reais e sobrecarregar os analistas de segurança. A comparação entre o ModelAudit e as verificações integradas do Hugging Face demonstra que nenhuma ferramenta é perfeita. A abordagem mais eficaz para garantir a segurança dos modelos de ML envolve a combinação de diferentes ferramentas de escaneamento, a análise manual aprofundada de alertas críticos e a constante atualização das regras de detecção para acompanhar as táticas em evolução dos atacantes. A colaboração entre pesquisadores, desenvolvedores de ferramentas e a comunidade de ML é fundamental para construir um ecossistema mais seguro.
📤 Compartilhar & Baixar
🧰 Ferramentas recomendadas
Divulgação: alguns links são patrocinados. Podemos receber comissão se você comprar — sem custo extra para você. Só indicamos o que faz sentido para a comunidade.