Seus Segredos em LLMs: Para Onde Vão seus Prompts e Quais os Riscos?

Seus Segredos em LLMs: Para Onde Vão seus Prompts e Quais os Riscos?

A crescente adoção de Modelos de Linguagem Grandes (LLMs) levanta sérias preocupações sobre a privacidade e segurança dos dados. Este artigo explora para onde vão seus prompts, quem pode acessá-los e como proteger suas informações confidenciais.

MundiX News·25 de maio de 2026·7 min de leitura·👁 6 views

Cada vez que você envia parte do seu código para o Cursor, Claude Code, ou compartilha seu relatório para análise no Gemini ou Qwen, um advogado de segurança da informação em algum lugar do mundo suspira. Redes neurais são uma maravilha (ou uma lei estatística), mas quem de nós nunca abriu um documento jurídico hospedado em nossos sites favoritos? Vamos mergulhar nos documentos dos maiores players: OpenAI, Google, Qwen, DeepSeek e, claro, o GigaChat russo. E vamos descobrir quem, além de nós, pode ter acesso às nossas informações.

Por que Alguém Precisaria dos Nossos Dados? Para a maioria das empresas, nossos dados não são apenas milhares de linhas de código (que elas não precisam) ou relatórios (que ninguém vai ler). Nossos dados são o combustível para a melhoria futura dos modelos. Quase todas as empresas declaram explicitamente:

  • ChatGPT (OpenAI): "Podemos usar o Conteúdo que você nos fornece para melhorar nossos Serviços, por exemplo, para treinar os modelos que alimentam o ChatGPT. Leia nossas instruções sobre como você pode optar por não usar seu Conteúdo para treinar nossos modelos."
  • Google (Gemini): "O Google usa esses dados, conforme descrito em nossa Política de Privacidade, para os seguintes fins: 'Fornecimento de nossos serviços. Suporte e melhoria de nossos serviços...'. Isso também se aplica aos modelos de IA generativa e outras tecnologias de aprendizado de máquina usadas em nossos serviços."

Isso significa que qualquer algoritmo exclusivo seu ou informação importante de um relatório pode se tornar parte dos pesos do modelo. Teoricamente, esses dados podem surgir nas respostas de seus concorrentes ou de cibercriminosos, se os serviços não tomarem cuidado suficiente para anonimizar os dados durante o treinamento!

O Grande Irmão e Pessoas Reais Você acha que apenas a IA vê sua correspondência? Pense novamente… Por exemplo, o Google (Gemini) avisa explicitamente: "Alguns chats são revisados por especialistas da Google e seus provedores de serviços. Isso é feito para melhorar os modelos Gemini, outros modelos de IA generativa."

O Qwen também afirma: "Podemos coletar, usar, processar e/ou divulgar seus dados pessoais para os fins estabelecidos na tabela abaixo... Para fornecer suporte ao cliente e solução de problemas, e para responder às suas perguntas, solicitações, feedback e sugestões."

Avisos semelhantes podem ser encontrados nos documentos da Anthropic (Claude) e OpenAI (ChatGPT). As empresas se reservam o direito de moderação manual caso os filtros de segurança sejam acionados. Se você alimentar a IA com documentos privados (como relatórios financeiros de empresas, correspondências internas) ou documentos que contenham dados pessoais (como dados de cartões, passaportes) sem pensar, esteja preparado para que um moderador da Índia ou Vietnã possa vê-los.

(E então, esses dados podem acabar no mercado negro ou simplesmente ser usados por pessoas aleatórias).

Geografia dos Dados: Para Onde Voam as Correspondências? Um dos riscos importantes para as empresas, relacionado à conformidade e à lei, está diretamente ligado ao local onde os dados são armazenados:

  • EUA (OpenAI, Anthropic, Google): Os dados caem sob a jurisdição dos EUA (incluindo o Cloud Act). Isso significa acesso por agências de inteligência mediante solicitação e processamento de dados em servidores em todo o mundo.
  • China (DeepSeek, Qwen): Seus prompts vão fisicamente para a RPC. Os documentos da DeepSeek indicam: "Suas informações podem ser transferidas... para a República Popular da China." As especificidades da legislação local dão ao estado acesso praticamente ilimitado aos dados dos gigantes da tecnologia.
  • Rússia (GigaChat): Aqui, tudo segue a Lei Federal 152. Os dados estão na Federação Russa, mas o acesso por órgãos de aplicação da lei mediante solicitação é garantido.

O Pesadelo do Regulador: Por Que os Estados Têm Medo dos Serviços de IA? Antes da inteligência artificial generativa, os estados tinham um mecanismo claro e testado para controlar informações. Se um conteúdo "indesejado" aparecesse na rede, o mecanismo de moderação funcionava linearmente: o regulador (na pessoa do Roskomnadzor na Federação Russa ou do serviço de cibersegurança na RPC) enviava uma solicitação ao mecanismo de busca ou rede social, o link era removido da pesquisa ou bloqueado por IP/URL, e o acesso para cidadãos de uma determinada geolocalização era interrompido.

Mas com os modelos LLM, esse esquema quebra. O modelo não "emite um link" para um site – ele gera texto aqui e agora, com base em bilhões de seus pesos internos. O problema do banimento pontual: não é possível simplesmente "banir" informações dentro de uma rede neural, nem para residentes de uma determinada região, nem para todos os usuários de uma vez. Um modelo treinado é um monólito que, se souber de algum fato, o apresentará como está. Claro, agora eles criam interfaces em torno de modelos LLM usando modelos de filtro, mas tudo isso não apenas encarece e complica os produtos, mas também, por sua natureza, é algo que pode ser contornado usando engenharia de prompt.

Firmware Ideológico Os estados percebem que os LLMs não são apenas uma ferramenta, mas um tradutor de valores culturais e políticos do país onde foram treinados. É por isso que vemos uma corrida por modelos "soberanos".

Geografia do Processamento de Dados Suas correspondências com os serviços são, em sua maioria, armazenadas em servidores dos países onde esses serviços são legalmente e fisicamente representados. Assim, para os países, aumentam os riscos associados ao vazamento de dados importantes de diálogos com serviços de IA para terceiros estados.

Do ponto de vista do estado, tais modelos significam a perda de controle sobre a qualidade (do ponto de vista do regulador) do conteúdo que chega às massas. Se antes era possível bloquear a pesquisa, agora é preciso bloquear serviços inteiros (como alguns estados fazem ao bloquear o ChatGPT). E é a falta de controle transparente e linear sobre as informações que torna suas correspondências com a IA um alvo ainda mais desejável para a moderação estatal.

E, como podemos ler nos documentos jurídicos das empresas, quase todas as organizações declaram explicitamente que seus dados podem ser transferidos aos órgãos governamentais competentes para análise e processamento. Portanto, não apenas um funcionário do serviço ou um freelancer indiano pode ver todas as suas correspondências, mas também um funcionário de um órgão de aplicação da lei.

  • Sberbank: "8.5. Não é uma violação do regime de confidencialidade o fornecimento pelas Partes de informações mediante solicitação de órgãos estatais autorizados em conformidade com a legislação da Federação Russa."

Como Não "Vazar" Informações: Regras de Higiene Atualmente, é praticamente impossível proibir 100% dos funcionários de usar IA, pois isso aumenta a velocidade e a qualidade do trabalho e, como resultado, o negócio se beneficia disso. Portanto, é necessário introduzir uma cultura de uso de modelos de IA para os funcionários:

  • Ativar "Training Off". Na OpenAI e Anthropic, esta é uma configuração importante que permite desativar o uso de suas correspondências com a IA para treinamento posterior.
  • Anonimização Manual. Substitua nomes de funcionários/pessoas por -> Funcionário_1, Gerente, Doutor, Funcionário do Departamento de Vendas; Nomes de marcas/projetos por -> Projeto_X, Marca_Alfa; Números em relatórios -> altere-os proporcionalmente ou substitua por [DADOS_DE_FATURAMENTO].
  • Chats Temporários (Temporary Chat). No ChatGPT, existe o modo "Temporary Chat". O histórico não é salvo, o treinamento é desativado por padrão. Ideal para perguntas rápidas únicas.
  • Não armazene chaves de acesso abertamente. Ao trabalhar com Cursor, Claude Code ou outros agentes, é necessário limitar o acesso dos agentes a arquivos onde você armazena chaves (sejam arquivos .env ou simples configurações JSON) através das configurações do próprio agente.

Se Você Tem Dados de Clientes, Segredos Financeiros ou de Estado em Mãos Modelos locais são o caminho mais seguro. Use ferramentas como Ollama, LM Studio ou AnythingLLM. Você baixa o modelo (por exemplo, Llama 3, Mistral ou Qwen - versões abertas) para o seu servidor ou um laptop potente. Os dados nunca saem do seu computador. Sem internet – sem vazamento.

Instâncias Isoladas na Nuvem (Enterprise PaaS).

Conclusão Hoje, o que devemos temer não é "a revolta das máquinas", mas a perda de controle sobre os dados! Cada empresa luta por clientes, cada pessoa luta pela privacidade, e o uso descontrolado de LLMs pode levar ao fato de que toda a nossa privacidade um dia se tornará acessível a um grande número de pessoas ao nosso redor.

Trate qualquer chatbot em nuvem como uma apresentação para centenas de milhares de espectadores. Se você não quer que alguém um dia use seu trabalho e desenvolvimento contra você, é melhor tentar seguir as regras mais simples de proteção de seus dados pessoais e corporativos!

📤 Compartilhar & Baixar