Despersonalização com Modelos Locais de IA: Criando seu Próprio Especialista em Segurança da Informação Doméstico

Despersonalização com Modelos Locais de IA: Criando seu Próprio Especialista em Segurança da Informação Doméstico

Explore como a despersonalização de dados com modelos de IA locais, como o Qwen, pode ser uma ferramenta poderosa para garantir a conformidade com leis de privacidade e proteger informações sensíveis. Este guia detalha a configuração e implementação de um despersonalizador eficaz.

MundiX News·23 de junho de 2026·8 min de leitura·👁 2 views

Olá a todos! Sou Kirill da Neuromed e hoje quero abordar o tema da despersonalização. Sim, essa tendência pode já estar em declínio, pois todos que queriam implementá-la já alcançaram seu sucesso. No entanto, entendo que o uso de IA local como ferramenta de despersonalização flexível é uma arte sem limites. Como um indivíduo criativo, decidi explicar de forma simples para iniciantes todos os aspectos do trabalho de um despersonalizador, como atender às leis e como obter um despersonalizador de qualidade em produção para todos.

Vamos começar com o básico. O que é despersonalização? Condicionalmente, é o processo de anonimização de tudo o que você precisa enviar a alguém. Este termo não é novo e essa tecnologia tem sido usada amplamente por muito tempo. Assim que as primeiras leis sobre mídia e dados pessoais surgiram (por volta dos anos 2010), todos começaram a falar e aplicar processos de despersonalização. Isso é ótimo! Mas agora, isso é especialmente relevante, pois é uma coisa usar informações de forma inteligente na internet, ao publicar posts e fotos – onde parece que todos aprenderam o que é bom e o que é ruim. E é bem diferente quando você carrega algo em um modelo que, por exemplo, não está localizado em um país amigável para você. Claro, a importância do contexto completo para que o modelo gere o resultado correto é crucial, mas vale a pena despersonalizar as informações? Claro que sim! É uma coisa dar uma especificação para a IA sobre seu caso, seu ambiente, etc., sem mencionar nomes e caminhos diretos, e outra coisa é alimentar a IA com fatos que são supérfluos para gerar uma resposta – mas que revelam você e todos os outros. Há muito tempo aprendemos a não carregar no código-fonte da IA, endereços diretos e senhas – graças a Deus, até a IA agora grita com você quando vê alguma informação crítica que você está transmitindo. E a IA não oferece nenhuma garantia de segurança. Ninguém admite se as informações do diálogo com você são coletadas em algum lugar e por quanto tempo serão armazenadas – e isso é um risco enorme. Mas isso é sobre o seu uso – e agora vamos passar para o uso da sua solução para outra pessoa.

Suponha que você tenha um serviço com IA. Você é um mini-fornecedor, faz seu próprio software e ele tem IA. E assim que você começa a ler as últimas alterações nas leis sobre dados pessoais e o trabalho de IA – você entra em pânico. O quê? Aquilo que fizemos por um ano já é ilegal e não pode ser usado? Por exemplo, você tem o Deep Seek analisando os perfis dos seus usuários. As leis não dizem diretamente – Não pode – elas dizem – é necessário passar por um procedimento de despersonalização em etapas antes de enviar a solicitação e analisá-la com modelos estrangeiros! E isso é correto! Você não sabe se seus usuários são competentes e se eles conhecem todas as leis de cor. Parte dos seus usuários pode nunca ter se deparado com IA antes. E a culpa, se algo vazar e se tornar público, recairá sobre você. E aqui, mês após mês, a questão da despersonalização de dados voltou a ser relevante. Além disso, essa questão se complicou. Se antes você tinha um aplicativo que podia despersonalizar informações usando máscaras comuns, funções e regex. Por exemplo, no formulário está escrito "ИНН:123", então depois dos dois pontos, removemos isso. Agora – é impossível prever como o usuário escreverá, ele pode escrever "Meu ИНН um dois três" por brincadeira. Resultado – você não pegou o vazamento de dados no modelo, e o usuário não tem culpa, você não pegou a assinatura dele de que ele se compromete a não inserir dados pessoais, e não o submeteu a um treinamento obrigatório onde isso foi destacado. O resultado é um só – ruim para você. E a questão "como fazer um despersonalizador flexível" – resolveu-se sozinha. E se fizéssemos isso através de IA para IA?

Quais são os pontos importantes? O mais importante a considerar é que toda essa história deve ser implantada localmente. Ou seja, você deve pegar um modelo local e, obrigatoriamente, colocá-lo em um servidor russo certificado. Bloquear todos os canais de comunicação e fornecer apenas os poucos necessários para seu funcionamento. Ou seja, se esboçarmos aproximadamente como isso deve funcionar – então será algo assim. E você me dirá imediatamente: Kirill... isso é necessário para tudo o que é enviado? Não, esse esquema de comunicação é crítico apenas para as informações que serão enviadas ao modelo. Além disso, o despersonalizador neste esquema é o maior campo para a imaginação. Sua implementação pode ocorrer de forma diferente para cada negócio. Para não ser infundado, apresentarei a seguir como e através do quê eu o fiz. Despersonalização sob o capô em um exemplo. Vamos analisar um caso típico. Temos um sistema de comunicação do usuário com IA, construímos um esquema de conexões assim, mas como construir o próprio despersonalizador? Como eu disse – temos um servidor no segmento russo, vamos configurá-lo. Para começar, vamos entender qual ferramenta atuará como o próprio cérebro da despersonalização. Por exemplo, no meu caso, basta usar o Qwen 2.5 7B – ele é local, tranquilo e funciona bem sob carga. Com a configuração correta (trabalhando apenas na GPU), ele consome no máximo 14 GB de memória de vídeo sob carga de pico. Não sei sobre o processador – mas não recomendo executar essas coisas na CPU! Em seguida, vamos entender, IA é uma boa ferramenta, mas até um perfurador da Makita quebra, então preveremos várias etapas com antecedência. Tal esquema resultou no final, vemos várias etapas, além disso, o número de etapas pode ser expandido, digamos, adicionar outro modelo local e implantá-lo. Vamos começar do início, temos o texto original que precisa ser processado. Para começar, vamos jogá-lo em regex. Por quê? Um usuário pode fazer uma pergunta simples que não contém dados pessoais. Mas se sua solução for tal que haverá informações críticas – então vá sem a primeira camada. No meu caso, tais perguntas simples são possíveis – portanto, implementamos um módulo autônomo de compreensão de resultados e qualidade (Haha, e isso também pode ser feito em um modelo). Se o resultado for satisfatório – para a saída, caso contrário, vamos para o Qwen com o primeiro prompt de despersonalização. Sim, este prompt será tudo o que gostamos: "Você despersonaliza textos em russo antes de enviá-los para um modelo de linguagem externo. REMOVA completamente (corte, sem substituição por rótulos): nomes completos, parentes, pessoas, signatários de documentos; telefones, e-mail; passaporte, SNILS, INN, número da apólice de seguro de saúde, identificadores que identificam inequivocamente uma pessoa; nome de um local específico onde a pessoa esteve ou esteve; endereço residencial do paciente; detalhes do certificado digital (certificado, proprietário da assinatura), se eles identificarem uma pessoa". Acho que cada um é capaz de implementar o que precisa. Recebemos o resultado do Qwen – verificamos se ficou bom. Se sim – parabéns, mas se não – preveja um prompt mais leve ou mais complexo (escolha você mesmo), que fará o modelo entender o que ele precisa com mais precisão. E executamos novamente. Os algoritmos de saída e implementação, acho que você mesmo pode inventar quaisquer que sejam. Quais são as armadilhas da implementação de algo assim? Oh, são tantas – que não consigo prever e aconselhar você. MAS! Tentarei. Para começar, defina o modelo e leia atentamente seus benchmarks sob carga. Cada modelo local tem resultados de testes. Se não houver, você terá que inventar e observar sob carga. Se você escolheu um modelo como o meu – simples e flexível – então pense em uma máquina com 16 GB de memória de vídeo. Eu calculei aproximadamente a carga de pico em uma unidade de tempo. Ou então, implemente seu próprio sistema de fila para processamento de documentos e textos))) Aqui você é o artista. Em seguida, implante os modelos corretamente! Preveja com antecedência, os modelos pesam cerca de 4-7 GB (desse tipo como Qwen com 7b parâmetros), então se você incorporar no pipeline que a cada re-build e deploy você baixa novamente – não será divertido. Se o volume do modelo for baixado – reutilize-o. E mais um ponto – configure rigidamente a IA para usar apenas GPU. Em .yaml, uma inserção como esta ajudará: deploy: resources: reservations: devices: - driver: nvidia count: all capabilities: [gpu] environment: - NVIDIA_VISIBLE_DEVICES=all - NVIDIA_DRIVER_CAPABILITIES=compute,utility Ah, sim, instale todos os drivers da placa de vídeo! É obrigatório prever a instalação do ToolKit (eu tinha o toolkit da Nvidia). Eles nunca são instalados automaticamente – tudo é manual. Em seguida, implante – verifique as redes! Uma infraestrutura correta é a chave para o sucesso, uma máquina com GPU deve ter suas próprias entradas e saídas de transmissão de informações – as outras são bloqueadas e mortas. Apenas texto para processamento pode entrar lá e apenas texto pode sair! Nenhuma outra conexão! Pense nisso com antecedência na topologia da sua rede. Aqui nós lançamos, implantamos – testamos! Com antecedência – todas essas ferramentas de monitoramento de carga de memória de vídeo têm uma armadilha. Eu tropecei nela e pensei que nada estava funcionando – mas o resultado de alguma forma existe! Todos os sistemas de monitoramento têm seu próprio passo de medição de indicadores. Eu iniciei o despersonalizador, dei a ele uma tarefa – o resultado existe – mas os indicadores de carga da GPU estão em zero. Primeiro, verifiquei por muito tempo onde ele estava olhando? Talvez pela CPU? Ah, não, descobriu-se que eu estava monitorando com um passo de 10 segundos. Reduzi o passo para o mínimo – 5 segundos e ainda não vi. Portanto, teste sob carga constante do despersonalizador e grandes volumes de dados. Ou preveja com antecedência que em 10 testes no pico você pode não notar o salto. Mas, felizmente, alguns provedores têm seus próprios sistemas de monitoramento e lá com um passo de atualização melhor – talvez lá você consiga pegar o salto. Não espere um resultado imediato. Ao iniciar pela primeira vez – "a frio" – você esperará a resposta por cerca de 14 segundos, em seguida, quanto mais perguntas – mais rápida será a resposta. O Qwen não entende que você fez todo o seu funcional e capacidades e escolheu apenas um. Portanto, ele espera tudo – e como resultado, ele se adapta e funcionará tranquilamente. Levei de 50 a 60 requisições para que a espera caísse para 5 segundos. Eu – quando essa máquina infernal começou a funcionar: "Tudo! Uau! Deu certo, em seguida, editamos tudo para nós mesmos. Você pode fazer um fine-tune no modelo, pode alterar os prompts – o que quiser. Implementamos o despersonalizador mais simples e tudo dentro das regras e boas práticas.

Conclusões. Bem, vamos resumir. 1) Leia a documentação técnica e os benchmarks. 2) Acione os engenheiros de DevOps com antecedência para obter ajuda e a infraestrutura correta com a máquina. 3) Implemente as conexões e a transmissão de informações corretas. 4) Lance e teste vários casos – e só depois disso, talvez, use em produção. Mas, não pense que o Qwen sabe tudo, pode tudo e fará tudo perfeitamente sempre. Todos os modelos alucinam e erros serão encontrados – preveja elementos de controle e penetração. Pense com antecedência com as equipes de segurança da informação em todas as questões de segurança e regras de processamento. Leia as leis atuais e entenda quais riscos recaem sobre você e como evitá-los. Bem, é tudo por agora, desejo a todos implantações bem-sucedidas! Amor, sorrisos, felicidade! Assine, dê likes, deixe comentários. Encontrou um erro – escreva para mim ou nos comentários, ajudarei a todos e corrigirei tudo! Boa sorte!

🛡️⚡

Pare de pesquisar. Comece a hackear.

O MundiX é seu copiloto de pentest com IA: comandos exatos, análise de outputs e próximo passo na kill chain — em segundos.

Testar grátis por 7 dias →

Sem cartão para começar · Planos a partir de R$49/mês

📤 Compartilhar & Baixar

🧰 Ferramentas recomendadas

Divulgação: alguns links são patrocinados. Podemos receber comissão se você comprar — sem custo extra para você. Só indicamos o que faz sentido para a comunidade.

Aprendendo Kali Linux: Teste de segurança, pentest e hacking ético

Aprendendo Kali Linux: Teste de segurança, pentest e hacking ético

Com centenas de ferramentas pré-instaladas, a distribuição Kali Linux facilita o trabalho de os profissionais de segurança começarem a fazer testes de segurança rapidamente. No entanto, com mais de 600 ferramentas em seu arsenal, o Kali Linux também pode ser desafiador. A nova edição deste prático livro abrange as atualizações nas ferramentas e inclui uma melhor abordagem da análise forense e da engenharia reversa. Ric Messier, autor, não fica apenas no teste de segurança, mas também faz uma abordagem sobre a execução de análise forense, incluindo a análise em disco e na memória, assim como alguma análise básica de malware. • Explore as diversas ferramentas disponíveis no Kali Linux • Entenda o valor do teste de segurança e examine os tipos de teste disponíveis • Aprenda os aspectos básicos do pentest em todo o ciclo de vida do ataque • Instale o Kali Linux em vários sistemas, tanto físicos quanto virtuais • Descubra como usar diferentes ferramentas destinadas à segurança • Estruture um teste de segurança baseado nas ferramentas do Kali Linux • Estenda as ferramentas do Kali para criar técnicas de ataque avançadas • Use o Kali Linux para ajudar a criar relatórios quando o teste terminar “A abordagem concisa, clara e baseada na experiência adotada por Ric Messier para a introdução do Kali Linux e dos testes de cibersegurança é incomparável. Este livro é uma leitura excelente e acessível para iniciantes e um recurso valioso para qualquer pessoa.” —Alexander Arlt, Consultor sênior de segurança, Google

Ver na Amazon
Gshield 2 em 1 Hub Extensor Conector USB-C + USB-A e Adaptador de Rede Ethernet LAN RJ45 com 3 Entradas USB 3.0 até 5 Gbps em Liga de Alumínio para Computador e Notebook, Cinza

Gshield 2 em 1 Hub Extensor Conector USB-C + USB-A e Adaptador de Rede Ethernet LAN RJ45 com 3 Entradas USB 3.0 até 5 Gbps em Liga de Alumínio para Computador e Notebook, Cinza

Compatível com portas USB-C e USB-A, ideal para ampliar a conectividade de dispositivos como MacBook Pro e outros com portas USB-C. Inclui um adaptador USB-A extra, proporcionando uma conexão Ethernet estável e veloz de até 1 Gbps, perfeita para filmes, jogos online e videoconferências. Oferece três portas USB 3.0 com velocidades de transferência de até 5 Gbps, permitindo conectar mouse, teclado, discos rígidos e outros periféricos. Fabricado em alumínio durável, garantindo longa vida útil e resistência ao uso diário. Design compacto e leve, ideal para viagens de negócios e uso diário, facilitando o transporte e armazenamento. Funciona com Windows 10/8.1/8, Mac OS e Chrome OS, oferecendo versatilidade incomparável para diversas necessidades de conectividade. Assegura uma conectividade estável e rápida, perfeita para tarefas exigentes como transferência de dados, streaming e mais.

Ver na Amazon
Hacking APIs: Breaking Web Application Programming Interfaces

Hacking APIs: Breaking Web Application Programming Interfaces

Hacking APIs is a crash course on web API security testing that will prepare you to penetration-test APIs, reap high rewards on bug bounty programs, and make your own APIs more secure. You'll learn how REST and GraphQL APIs work in the wild and set up a streamlined API testing lab with Burp Suite and Postman. Then you'll master tools useful for reconnaissance, endpoint analysis, and fuzzing, such as Kiterunner and OWASP Amass. Next, you'll learn to perform common attacks, like those targeting an API's authentication mechanisms and the injection vulnerabilities commonly found in web applications. You'll also learn techniques for bypassing protections against these attacks. In the book's nine guided labs, which target intentionally vulnerable APIs, you'll practice: Enumerating APIs users and endpoints using fuzzing techniques Using Postman to discover an excessive data exposure vulnerability Performing a JSON Web Token attack against an API authentication process Combining multiple API attack techniques to perform a NoSQL injection Attacking a GraphQL API to uncover a broken object level authorization vulnerability

Ver oferta
Gray Hat Hacking: The Ethical Hacker's Handbook, Sixth Edition

Gray Hat Hacking: The Ethical Hacker's Handbook, Sixth Edition

Up-to-date strategies for thwarting the latest, most insidious network attacks This fully updated, industry-standard security resource shows, step by step, how to fortify computer networks by learning and applying effective ethical hacking techniques. Based on curricula developed by the authors at major security conferences and colleges, the book features actionable planning and analysis methods as well as practical steps for identifying and combating both targeted and opportunistic attacks. Gray Hat Hacking: The Ethical Hacker's Handbook, Sixth Edition clearly explains the enemy's devious weapons, skills, and tactics and offers field-tested remedies, case studies, and testing labs. You will get complete coverage of Internet of Things, mobile, and Cloud security along with penetration testing, malware analysis, and reverse engineering techniques. State-of-the-art malware, ransomware, and system exploits are thoroughly explained. Fully revised content includes 7 new chapters covering the latest threats Includes proof-of-concept code stored on the GitHub repository Authors train attendees at major security conferences, including RSA, Black Hat, Defcon, and B-Sides

Ver na Amazon
Bloqueador USB de privacidade de porta USB para PC, notebook, bloco de laptop,

Bloqueador USB de privacidade de porta USB para PC, notebook, bloco de laptop,

Proteção de privacidade aprimorada: protege o link de transmissão de dados para evitar roubo de informações, fornecendo proteção de segurança robusta que protege a privacidade do usuário durante transferências de arquivos e garante uma conexão segura para interações de dispositivos sem preocupações em vários ambientes Uso a longo prazo: a camada protetora resistente ao desgaste, combinada com um corpo de metal resistente, oferece gerenciamento de calor confiável e qualidade duradoura durante o uso diário Entrega eficiente de energia: a tecnologia de chip inteligente garante a identificação automática dos requisitos de energia, fornecendo carregamento eficiente alinhando-se com vários protocolos de carregamento rápido para maior conveniência Proteção contra sobrecarga: evitando riscos de sobrecarga, este bloqueador de dados USB protege a vida útil da bateria e garante um desempenho estável, mantendo um fluxo estável de energia para melhorar a longevidade do dispositivo de forma eficaz Prático de transportar: com atenção à portabilidade, este bloqueador de dados USB oferece um design compacto que é leve e fácil de transportar, melhorando a conveniência do usuário e operação eficiente

Ver na Amazon

📩 Newsletter MundiX

Receba novidades de cibersegurança + um checklist de pentest grátis. Sem spam.

Ao assinar você concorda em receber e-mails. Cancele quando quiser.