AppSec LLM IA Segurança de Código Vulnerabilidades

Um Engenheiro e Dez Mãos: Como Investigamos LLMs em AppSec

Este artigo da SolarSecurity explora o uso de Inteligência Artificial (IA) em segurança de aplicações (AppSec), comparando modelos de linguagem grandes (LLMs) com soluções especializadas como o DerAI. A análise foca na triagem de vulnerabilidades e geração de correções de código, revelando insights sobre a eficácia de diferentes abordagens.

MundiX News·12 de maio de 2026·10 min de leitura·👁 4 views

Um Engenheiro e Dez Mãos: Como Investigamos LLMs em AppSec

Olá a todos, aqui é a Solar appScreener! Neste artigo, compartilharemos nossa experiência com o uso de IA em nosso próprio produto. Agentes de IA já se tornaram parte integrante do processo de desenvolvimento, não é mais uma moda passageira, mas uma nova realidade. De acordo com uma pesquisa da Sonar (State of Code Developer Survey 2026, https://www.sonarsource.com/state-of-code-developer-survey-report.pdf), 72% dos desenvolvedores que tentaram usar IA começaram a usá-la diariamente. E 42% de todo o código escrito já foi gerado por IA ou significativamente aprimorado por ela. Números incríveis. Deve-se admitir que vivemos em uma nova realidade, na qual o 'vaibcoding' é um novo estilo de programação.

Mas a questão permanece em aberto – o que está acontecendo com a segurança desse código?! E aqui os dados são decepcionantes. A IA continua a gerar código com vulnerabilidades. 45% das amostras de código geradas por IA se mostraram inseguras (Veracode. GenAI Code Security Report, https://www.veracode.com/blog/genai-code-security-report/). É como jogar uma moeda, se o código foi gerado com segurança ou não. Não é o que você quer ver no contexto da segurança. Aqui estão algumas das principais razões pelas quais isso acontece:

Os modelos foram treinados em vastas quantidades de código público, adotando padrões e estilos de escrita. E havia muitas vulnerabilidades e modelos de código inseguros.
A IA não “entende” o que é segurança como um conceito na escrita de código, mas continua uma sequência estatisticamente provável de tokens.
A IA ainda não consegue manter “em mente” todo o projeto, onde e como as informações confidenciais circulam nele, por exemplo, a definição do usuário, e, portanto, comete erros.

Mas isso não significa que a IA não possa resolver problemas de segurança. Pode, e muito!

Atualmente, cada vez mais fornecedores estão se movendo na direção da implementação inteligente de IA em seus produtos. Os casos de uso mais bem-sucedidos de acordo com pesquisas atuais (Veracode. GenAI Code Security Report, https://www.veracode.com/blog/genai-code-security-report/, Checkmarx 2025 Trends on AI Security, https://checkmarx.com/learn/ai-security/2025-trends-on-ai-security-how-appsec-must-evolve-with-the-ai-shifted-sdlc/) é o uso de IA para triagem de vulnerabilidades encontradas e geração de correções para elas. Um fato interessante – ninguém prevê a substituição de analisadores SAST/DAST clássicos pela IA; pelo contrário, eles recebem um impulso adicional para o desenvolvimento devido à IA.

Como é um SAST clássico:

Por que não há tempo suficiente para a triagem clássica?

Portanto, surge a questão: como automatizar toda essa rotina e obter amostras de código seguro? Talvez IA?

Mas aqui vale a pena fazer a si mesmo mais algumas perguntas:

Quais dados devem ser transmitidos para a IA?
Onde obter IA?
Estamos realmente automatizando a triagem com IA?
Estamos realmente automatizando a correção de código com IA?
O que acontecerá com a confidencialidade do meu código e dados?

Conhecendo todas essas “dores”, nós da “Solar” alguns anos antes de o 'vaibcoding' se tornar uma rotina diária, começamos a desenvolver um plug-in de IA para nosso produto Solar appScreener. Ele é chamado DerAI e inclui duas tecnologias: DerTriage (triagem de vulnerabilidades encontradas pelo analisador SAST) e DerCodeFix (geração de código corrigido para tais acionamentos). E tudo isso mesmo no local, e não apenas na “nuvem”!

Como funciona

O appScreener tem um mecanismo para filtrar falsos acionamentos há muito tempo – o Fuzzy Logic Engine. Esta tecnologia patenteada usa o aparato matemático da lógica difusa para determinar a veracidade do acionamento. Por 7 anos, analisamos e rotulamos vários projetos de código aberto, tanto propositadamente vulneráveis quanto projetos comuns, estudamos a documentação de bibliotecas e frameworks, escrevemos os casos de teste correspondentes para aprimorar esse mecanismo. E todo esse volume acumulado de dados rotulados foi a base para treinar nosso próprio modelo.

Testamos vários LLMs de código aberto, identificamos o modelo ideal e começamos a retreiná-lo com as informações que acumulamos. Como toda a rotulagem dos dados originais ocorreu inicialmente usando o appScreener, o modelo final também é adaptado para ele, e eles funcionam perfeitamente em conjunto; os números específicos serão fornecidos abaixo.

E aqui está a aparência de DerTriage e DerCodeFix na interface.

Na entrada para processamento, não apenas um código de amostra é fornecido, mas todas as informações disponíveis para o analisador. São descrições de regras, recomendações e exemplos de correção, todo o rastreamento de vulnerabilidade com contexto adicional para cada nó e outros metadados. Instruções adicionais sobre como trabalhar corretamente com a base de código existente para manter sua capacidade de trabalho. Isso é importante ao gerar correções.

Tudo isso permitiu obter um modelo compacto e otimizado com excelentes indicadores de precisão e eficiência. Tudo de acordo com os ensinamentos de Bruce Lee.

Por que isso é melhor do que apenas perguntar a um modelo de IA:

O LLM de amplo perfil está “entulhado” com informações desnecessárias. Voltamos à tese de que ele gera código mal, e a segurança é 50/50. Além disso, é um alto consumo de recursos na versão local: quanto maior o modelo, mais ele consome. Além disso, os riscos de perda de confidencialidade da base de código ao enviá-la para digitalização na “nuvem” para empresas estrangeiras.

Observe também a dificuldade de pesquisa. Tente enviar um arquivo de código grande para ele e peça para encontrar vulnerabilidades nele. E então digitalize-o com diferentes analisadores SAST. Os resultados não coincidirão. E quanto à análise entre procedimentos? E entre arquivos? E com análise durante a compilação? Um LLM comum não pode fazer isso, mas SAST+LLM pode.

Então, agora a parte mais interessante. Vamos para a batalha dos LLMs em nuvem e locais em AppSec

Dos grandes LLMs em nuvem, consideramos:

ChatGPT 5.2
DeepSeek 3.2
Gigachat

Dos modelos locais comparáveis em tamanho, selecionamos:

ChatGPT OSS openai/gpt-oss-20b 05/08/2025
Mistral 14b-2512 02/12/2025
LocalChat

Primeiro, analisamos 20 aplicativos escritos em Java e Python. Por que exatamente essas linguagens? Em primeiro lugar, elas pertencem à categoria das linguagens mais fáceis e difíceis para IA no contexto da segurança (Veracode. GenAI Code Security Report, https://www.veracode.com/blog/genai-code-security-report/), em segundo lugar, elas são muito comuns:

sua participação é de 45,4% e 61,8% entre as principais linguagens de programação na Rússia.

Todos os aplicativos são bastante grandes – a partir de 100.000 linhas de código, então coletamos um grande conjunto de dados. Identificamos cerca de 12.000 acionamentos exclusivos do analisador, enquanto um quinto das vulnerabilidades pertencia à categoria crítica.

Em seguida, formamos um único prompt. Ele incluía dados do sistema: o nome da vulnerabilidade, descrição, segmento de código, rastreamento de acessibilidade (o caminho de dados para a função insegura), identificadores de vulnerabilidade adicionais (CWE). Também adicionamos um padrão de usuário “Imagine que você é um AppSec experiente”. Assim, todos os modelos receberam o mesmo conjunto de informações e prompt, tudo é cristalino.

Então, triagem: o que estamos avaliando?

Avaliaremos 4 métricas – precisão geral, precisão, exaustividade e porcentagem de erros:

Precisão geral – quão corretamente o LLM determina a veracidade e a falsidade do acionamento. É calculado como (TP+TN)/ALL
Precisão – quantas vulnerabilidades reais estão entre aquelas que o LLM marcou como verdadeiras. É calculado como TP/(TP+FP).
Exaustividade – quantas das vulnerabilidades reais do projeto foram identificadas pelo LLM. É calculado como TP/(TP+FN).
Porcentagem de erros – com que frequência o LLM comete erros no processo de rotulagem. É calculado como (FP+FN)/ALL.

Para o caso, vamos lembrar o que essas abreviações significam:

TP – LLM confirmou corretamente o acionamento verdadeiro
TN – LLM rejeitou corretamente o acionamento falso
FP – LLM confirmou erroneamente o acionamento falso
FN – LLM rejeitou erroneamente o acionamento verdadeiro

Projetos Java

Por exemplo, ao processar os resultados da verificação do projeto vulnado, os modelos mostraram os seguintes resultados:

Ao analisar em toda a seleção de projetos Java e resumir os resultados, obtemos as seguintes métricas:

Observação sobre a exaustividade de 100% do ChatGPT. Isso é alcançado por meio de uma deterioração perceptível em outras avaliações. Se todos os acionamentos do analisador forem confirmados, então FN será = 0, o que significa que a exaustividade = 100%. Mas isso não significa que o LLM fez um ótimo trabalho, pelo contrário, ele não conseguiu filtrar os falsos acionamentos, o que levou a uma diminuição nas outras métricas.

Projetos Python

Por exemplo, ao processar os resultados da verificação do projeto vulpy, os modelos mostraram os seguintes resultados:

Ao analisar em toda a seleção de projetos Python e resumir os resultados, obtemos as seguintes métricas:

O ChatGPT se comporta diametralmente oposto e se esforça não para FN=0, mas para FP=0, rejeitando uma massa de acionamentos verdadeiros, o que se reflete em outras métricas.

Tabela de resultados

Dos testes, pode-se ver que tanto no Java, que é mais difícil para a organização da segurança para IA, quanto no Python, que é mais simples, o modelo DerAI especializado para AppSec se mostra significativamente melhor do que seus concorrentes para a triagem de vulnerabilidades.

Agora é a vez do DerCodeFix

É mais fácil com ele. Avaliaremos se a correção proposta corrige a vulnerabilidade (Boa) ou não (Não Boa) e observaremos a precisão do processamento.

Tabela de resultados

De acordo com a pesquisa, a tarefa de gerar uma correção é notavelmente mais difícil do que a triagem de vulnerabilidades. E isso é claramente confirmado pelas estatísticas. Aqui, o treinamento e a adaptação do modelo DerAI para resolver tarefas específicas são visíveis como nunca.

Nossas conclusões:

A IA é mais do que aplicável em AppSec, e a indústria está se movendo ativamente nessa direção. Mas o uso de LLMs clássicos para resolver tarefas atuais é improdutivo: é mais barato e fácil jogar uma moeda na triagem, e a eficiência não será pior do que a dos grandes LLMs. Mas há uma solução, são modelos especializados, adaptados para segurança, integrados ao próprio analisador de segurança de código, como o DerAI no appScreener. Esses modelos mostram excelentes resultados hoje e são mais do que aplicáveis na vida real no momento.

Esperamos suas ideias e pensamentos nos comentários!

🛡️⚡

Pare de pesquisar. Comece a hackear.

O MundiX é seu copiloto de pentest com IA: comandos exatos, análise de outputs e próximo passo na kill chain — em segundos.

Testar grátis por 7 dias →

Sem cartão para começar · Planos a partir de R$49/mês

Um Engenheiro e Dez Mãos: Como Investigamos LLMs em AppSec

Os modelos foram treinados em vastas quantidades de código público, adotando padrões e estilos de escrita. E havia muitas vulnerabilidades e modelos de código inseguros.
A IA não “entende” o que é segurança como um conceito na escrita de código, mas continua uma sequência estatisticamente provável de tokens.
A IA ainda não consegue manter “em mente” todo o projeto, onde e como as informações confidenciais circulam nele, por exemplo, a definição do usuário, e, portanto, comete erros.

Mas isso não significa que a IA não possa resolver problemas de segurança. Pode, e muito!

Como é um SAST clássico:

Por que não há tempo suficiente para a triagem clássica?

Portanto, surge a questão: como automatizar toda essa rotina e obter amostras de código seguro? Talvez IA?

Mas aqui vale a pena fazer a si mesmo mais algumas perguntas:

Quais dados devem ser transmitidos para a IA?
Onde obter IA?
Estamos realmente automatizando a triagem com IA?
Estamos realmente automatizando a correção de código com IA?
O que acontecerá com a confidencialidade do meu código e dados?

Como funciona

E aqui está a aparência de DerTriage e DerCodeFix na interface.

Tudo isso permitiu obter um modelo compacto e otimizado com excelentes indicadores de precisão e eficiência. Tudo de acordo com os ensinamentos de Bruce Lee.

Por que isso é melhor do que apenas perguntar a um modelo de IA:

Então, agora a parte mais interessante. Vamos para a batalha dos LLMs em nuvem e locais em AppSec

Dos grandes LLMs em nuvem, consideramos:

ChatGPT 5.2
DeepSeek 3.2
Gigachat

Dos modelos locais comparáveis em tamanho, selecionamos:

ChatGPT OSS openai/gpt-oss-20b 05/08/2025
Mistral 14b-2512 02/12/2025
LocalChat

sua participação é de 45,4% e 61,8% entre as principais linguagens de programação na Rússia.

Então, triagem: o que estamos avaliando?

Avaliaremos 4 métricas – precisão geral, precisão, exaustividade e porcentagem de erros:

Precisão geral – quão corretamente o LLM determina a veracidade e a falsidade do acionamento. É calculado como (TP+TN)/ALL
Precisão – quantas vulnerabilidades reais estão entre aquelas que o LLM marcou como verdadeiras. É calculado como TP/(TP+FP).
Exaustividade – quantas das vulnerabilidades reais do projeto foram identificadas pelo LLM. É calculado como TP/(TP+FN).
Porcentagem de erros – com que frequência o LLM comete erros no processo de rotulagem. É calculado como (FP+FN)/ALL.

Para o caso, vamos lembrar o que essas abreviações significam:

TP – LLM confirmou corretamente o acionamento verdadeiro
TN – LLM rejeitou corretamente o acionamento falso
FP – LLM confirmou erroneamente o acionamento falso
FN – LLM rejeitou erroneamente o acionamento verdadeiro

Projetos Java

Por exemplo, ao processar os resultados da verificação do projeto vulnado, os modelos mostraram os seguintes resultados:

Ao analisar em toda a seleção de projetos Java e resumir os resultados, obtemos as seguintes métricas:

Projetos Python

Por exemplo, ao processar os resultados da verificação do projeto vulpy, os modelos mostraram os seguintes resultados:

Ao analisar em toda a seleção de projetos Python e resumir os resultados, obtemos as seguintes métricas:

O ChatGPT se comporta diametralmente oposto e se esforça não para FN=0, mas para FP=0, rejeitando uma massa de acionamentos verdadeiros, o que se reflete em outras métricas.

Tabela de resultados

Agora é a vez do DerCodeFix

É mais fácil com ele. Avaliaremos se a correção proposta corrige a vulnerabilidade (Boa) ou não (Não Boa) e observaremos a precisão do processamento.

Tabela de resultados

Nossas conclusões:

Esperamos suas ideias e pensamentos nos comentários!

📤 Compartilhar & Baixar

🧰 Ferramentas recomendadas

Divulgação: alguns links são patrocinados. Podemos receber comissão se você comprar — sem custo extra para você. Só indicamos o que faz sentido para a comunidade.

Aprendendo Kali Linux: Teste de segurança, pentest e hacking ético

Com centenas de ferramentas pré-instaladas, a distribuição Kali Linux facilita o trabalho de os profissionais de segurança começarem a fazer testes de segurança rapidamente. No entanto, com mais de 600 ferramentas em seu arsenal, o Kali Linux também pode ser desafiador. A nova edição deste prático livro abrange as atualizações nas ferramentas e inclui uma melhor abordagem da análise forense e da engenharia reversa. Ric Messier, autor, não fica apenas no teste de segurança, mas também faz uma abordagem sobre a execução de análise forense, incluindo a análise em disco e na memória, assim como alguma análise básica de malware. • Explore as diversas ferramentas disponíveis no Kali Linux • Entenda o valor do teste de segurança e examine os tipos de teste disponíveis • Aprenda os aspectos básicos do pentest em todo o ciclo de vida do ataque • Instale o Kali Linux em vários sistemas, tanto físicos quanto virtuais • Descubra como usar diferentes ferramentas destinadas à segurança • Estruture um teste de segurança baseado nas ferramentas do Kali Linux • Estenda as ferramentas do Kali para criar técnicas de ataque avançadas • Use o Kali Linux para ajudar a criar relatórios quando o teste terminar “A abordagem concisa, clara e baseada na experiência adotada por Ric Messier para a introdução do Kali Linux e dos testes de cibersegurança é incomparável. Este livro é uma leitura excelente e acessível para iniciantes e um recurso valioso para qualquer pessoa.” —Alexander Arlt, Consultor sênior de segurança, Google

Ver na Amazon →

Gshield 2 em 1 Hub Extensor Conector USB-C + USB-A e Adaptador de Rede Ethernet LAN RJ45 com 3 Entradas USB 3.0 até 5 Gbps em Liga de Alumínio para Computador e Notebook, Cinza

Compatível com portas USB-C e USB-A, ideal para ampliar a conectividade de dispositivos como MacBook Pro e outros com portas USB-C. Inclui um adaptador USB-A extra, proporcionando uma conexão Ethernet estável e veloz de até 1 Gbps, perfeita para filmes, jogos online e videoconferências. Oferece três portas USB 3.0 com velocidades de transferência de até 5 Gbps, permitindo conectar mouse, teclado, discos rígidos e outros periféricos. Fabricado em alumínio durável, garantindo longa vida útil e resistência ao uso diário. Design compacto e leve, ideal para viagens de negócios e uso diário, facilitando o transporte e armazenamento. Funciona com Windows 10/8.1/8, Mac OS e Chrome OS, oferecendo versatilidade incomparável para diversas necessidades de conectividade. Assegura uma conectividade estável e rápida, perfeita para tarefas exigentes como transferência de dados, streaming e mais.

Ver na Amazon →

Hacking APIs: Breaking Web Application Programming Interfaces

Hacking APIs is a crash course on web API security testing that will prepare you to penetration-test APIs, reap high rewards on bug bounty programs, and make your own APIs more secure. You'll learn how REST and GraphQL APIs work in the wild and set up a streamlined API testing lab with Burp Suite and Postman. Then you'll master tools useful for reconnaissance, endpoint analysis, and fuzzing, such as Kiterunner and OWASP Amass. Next, you'll learn to perform common attacks, like those targeting an API's authentication mechanisms and the injection vulnerabilities commonly found in web applications. You'll also learn techniques for bypassing protections against these attacks. In the book's nine guided labs, which target intentionally vulnerable APIs, you'll practice: Enumerating APIs users and endpoints using fuzzing techniques Using Postman to discover an excessive data exposure vulnerability Performing a JSON Web Token attack against an API authentication process Combining multiple API attack techniques to perform a NoSQL injection Attacking a GraphQL API to uncover a broken object level authorization vulnerability

Ver oferta →

Gray Hat Hacking: The Ethical Hacker's Handbook, Sixth Edition

Up-to-date strategies for thwarting the latest, most insidious network attacks This fully updated, industry-standard security resource shows, step by step, how to fortify computer networks by learning and applying effective ethical hacking techniques. Based on curricula developed by the authors at major security conferences and colleges, the book features actionable planning and analysis methods as well as practical steps for identifying and combating both targeted and opportunistic attacks. Gray Hat Hacking: The Ethical Hacker's Handbook, Sixth Edition clearly explains the enemy's devious weapons, skills, and tactics and offers field-tested remedies, case studies, and testing labs. You will get complete coverage of Internet of Things, mobile, and Cloud security along with penetration testing, malware analysis, and reverse engineering techniques. State-of-the-art malware, ransomware, and system exploits are thoroughly explained. Fully revised content includes 7 new chapters covering the latest threats Includes proof-of-concept code stored on the GitHub repository Authors train attendees at major security conferences, including RSA, Black Hat, Defcon, and B-Sides

Ver na Amazon →

Bloqueador USB de privacidade de porta USB para PC, notebook, bloco de laptop,

Proteção de privacidade aprimorada: protege o link de transmissão de dados para evitar roubo de informações, fornecendo proteção de segurança robusta que protege a privacidade do usuário durante transferências de arquivos e garante uma conexão segura para interações de dispositivos sem preocupações em vários ambientes Uso a longo prazo: a camada protetora resistente ao desgaste, combinada com um corpo de metal resistente, oferece gerenciamento de calor confiável e qualidade duradoura durante o uso diário Entrega eficiente de energia: a tecnologia de chip inteligente garante a identificação automática dos requisitos de energia, fornecendo carregamento eficiente alinhando-se com vários protocolos de carregamento rápido para maior conveniência Proteção contra sobrecarga: evitando riscos de sobrecarga, este bloqueador de dados USB protege a vida útil da bateria e garante um desempenho estável, mantendo um fluxo estável de energia para melhorar a longevidade do dispositivo de forma eficaz Prático de transportar: com atenção à portabilidade, este bloqueador de dados USB oferece um design compacto que é leve e fácil de transportar, melhorando a conveniência do usuário e operação eficiente

Ver na Amazon →

📩 Newsletter MundiX

Receba novidades de cibersegurança + um checklist de pentest grátis. Sem spam.

Ao assinar você concorda em receber e-mails. Cancele quando quiser.

Aprendendo Kali Linux: Teste de segurança, pentest e hacking ético

Hacking APIs: Breaking Web Application Programming Interfaces

Bloqueador USB de privacidade de porta USB para PC, notebook, bloco de laptop,

Um Engenheiro e Dez Mãos: Como Investigamos LLMs em AppSec

Um Engenheiro e Dez Mãos: Como Investigamos LLMs em AppSec

Pare de pesquisar. Comece a hackear.

Um Engenheiro e Dez Mãos: Como Investigamos LLMs em AppSec

📤 Compartilhar & Baixar

🧰 Ferramentas recomendadas

Aprendendo Kali Linux: Teste de segurança, pentest e hacking ético

Gshield 2 em 1 Hub Extensor Conector USB-C + USB-A e Adaptador de Rede Ethernet LAN RJ45 com 3 Entradas USB 3.0 até 5 Gbps em Liga de Alumínio para Computador e Notebook, Cinza

Hacking APIs: Breaking Web Application Programming Interfaces

Gray Hat Hacking: The Ethical Hacker's Handbook, Sixth Edition

Bloqueador USB de privacidade de porta USB para PC, notebook, bloco de laptop,

📩 Newsletter MundiX

Artigos Relacionados

Cuidado com 'Skills' para IA: Como um download inocente pode roubar seus dados

Como a Tecnologia de Duas Letras Verifica uma Organização de Três Letras

Gshield 2 em 1 Hub Extensor Conector USB-C + USB-A e Adaptador de Rede Ethernet LAN RJ45 com 3 Entradas USB 3.0 até 5 Gbps em Liga de Alumínio para Computador e Notebook, Cinza

Gray Hat Hacking: The Ethical Hacker's Handbook, Sixth Edition