Criado Linter para Conformidade Legal de Sites: O Desafio de Distinguir Google Analytics de Variáveis CSS
Um desenvolvedor criou um linter automatizado para verificar a conformidade legal de sites, enfrentando desafios técnicos complexos, como a diferenciação entre scripts de análise e elementos de design. O projeto visa simplificar a adequação a leis de proteção de dados e publicidade, oferecendo uma análise de risco e sugestões de conformidade.
MundiX News·23 de junho de 2026·10 min de leitura·👁 1 views
O autor desenvolveu um linter para conformidade legal de sites, com o desafio particular de distinguir o Google Analytics de variáveis CSS. O serviço analisa sites de terceiros e calcula multas potenciais com base no Código de Infrações Administrativas (КоАП). A verificação é realizada em dois níveis: heurísticas básicas utilizando cheerio para padrões simples e a inteligência artificial Claude, via proxy russo, para análises de texto mais complexas. O resultado é uma pontuação de 0 a 100, uma lista de infrações com os artigos de lei correspondentes e uma estimativa da faixa de multa. As leis abordadas incluem a 152-ФЗ sobre dados pessoais, 242-ФЗ sobre localização de dados, a lei de publicidade e a lei de proteção ao consumidor.
A motivação para criar essa ferramenta surgiu da necessidade pessoal do autor, que gerencia um centro de reparos de equipamentos. Ao revisar a conformidade legal de seu próprio site, ele percebeu a complexidade e a dispersão dos requisitos legais, especialmente após a atualização do КоАП em maio de 2025, que aumentou significativamente as multas por infrações relacionadas a dados pessoais, incluindo sanções por vazamentos. Diante do alto custo de auditorias jurídicas, que muitas pequenas empresas não podem arcar, o autor buscou uma solução automatizada que pudesse identificar violações e fornecer orientações claras sobre artigos de lei e multas. O serviço, agora disponível publicamente em sitelaw.ru, é apresentado como uma ferramenta de auxílio, e não como um parecer jurídico formal, com a pontuação e a faixa de multa sendo estimativas de risco.
A arquitetura do projeto é dividida em dois níveis para otimizar custos e complexidade. O Nível 1 utiliza heurísticas com cheerio para análises mais diretas, como a verificação de HTTPS, validade de certificados SSL, conformidade de cookies e a presença de requisitos legais básicos (como CNPJ/ИНН). Este nível também identifica serviços estrangeiros proibidos ou restritos, como Google Analytics e Meta Pixel. Essas heurísticas são rápidas e econômicas, mas podem gerar falsos positivos. O Nível 2 emprega modelos de linguagem grandes (LLMs) como o Claude para tarefas que exigem compreensão semântica, como a análise da política de privacidade em relação à lei 152-ФЗ, a classificação do tipo de site para identificar requisitos específicos (médico, e-commerce, etc.) e a avaliação do risco geral. Para otimizar custos, o modelo Claude Haiku é usado para classificação, enquanto o Claude Sonnet é empregado para análises de texto mais profundas e perfis de risco. O plano gratuito do serviço opera apenas com heurísticas, sem o uso de LLMs, para manter os custos operacionais baixos. A escolha de usar um proxy russo para acessar a API da Anthropic foi uma decisão técnica e estratégica, evitando a transferência transfronteiriça de dados pessoais dos sites analisados, o que seria irônico dado o propósito do serviço. A otimização de custos é ainda aprimorada através do 'prompt caching', onde o prompt do sistema com regras e exemplos é cacheado para reduzir o número de tokens processados em cada requisição, especialmente em verificações em lote. O autor também detalha os desafios técnicos encontrados, como o comportamento inesperado do metacaractere em JavaScript com texto cirílico, a dificuldade em distinguir identificadores de Google Analytics de variáveis CSS com nomes semelhantes, e a necessidade de listas de permissão para evitar falsos positivos com serviços locais como o Yandex.Metrica. Um desafio adicional foi a renderização de caracteres especiais, como o símbolo do Rublo, em relatórios PDF, e a complexidade de mapear corretamente as violações encontradas para as seções específicas dos artigos de lei e suas respectivas multas, exigindo verificação manual constante das fontes legais. Por fim, o autor compartilha os resultados de uma análise em um lote de 80 sites B2B, revelando uma baixa conformidade geral (média de 38/100), com infrações comuns relacionadas a dados pessoais e consentimento de cookies, atribuindo isso a práticas de desenvolvimento desatualizadas e à falta de fiscalização proativa.
🛡️⚡
Pare de pesquisar. Comece a hackear.
O MundiX é seu copiloto de pentest com IA: comandos exatos, análise de outputs e próximo passo na kill chain — em segundos.
Sem cartão para começar · Planos a partir de R$49/mês
O autor desenvolveu um linter para conformidade legal de sites, com o desafio particular de distinguir o Google Analytics de variáveis CSS. O serviço analisa sites de terceiros e calcula multas potenciais com base no Código de Infrações Administrativas (КоАП). A verificação é realizada em dois níveis: heurísticas básicas utilizando cheerio para padrões simples e a inteligência artificial Claude, via proxy russo, para análises de texto mais complexas. O resultado é uma pontuação de 0 a 100, uma lista de infrações com os artigos de lei correspondentes e uma estimativa da faixa de multa. As leis abordadas incluem a 152-ФЗ sobre dados pessoais, 242-ФЗ sobre localização de dados, a lei de publicidade e a lei de proteção ao consumidor.
A motivação para criar essa ferramenta surgiu da necessidade pessoal do autor, que gerencia um centro de reparos de equipamentos. Ao revisar a conformidade legal de seu próprio site, ele percebeu a complexidade e a dispersão dos requisitos legais, especialmente após a atualização do КоАП em maio de 2025, que aumentou significativamente as multas por infrações relacionadas a dados pessoais, incluindo sanções por vazamentos. Diante do alto custo de auditorias jurídicas, que muitas pequenas empresas não podem arcar, o autor buscou uma solução automatizada que pudesse identificar violações e fornecer orientações claras sobre artigos de lei e multas. O serviço, agora disponível publicamente em sitelaw.ru, é apresentado como uma ferramenta de auxílio, e não como um parecer jurídico formal, com a pontuação e a faixa de multa sendo estimativas de risco.
A arquitetura do projeto é dividida em dois níveis para otimizar custos e complexidade. O Nível 1 utiliza heurísticas com cheerio para análises mais diretas, como a verificação de HTTPS, validade de certificados SSL, conformidade de cookies e a presença de requisitos legais básicos (como CNPJ/ИНН). Este nível também identifica serviços estrangeiros proibidos ou restritos, como Google Analytics e Meta Pixel. Essas heurísticas são rápidas e econômicas, mas podem gerar falsos positivos. O Nível 2 emprega modelos de linguagem grandes (LLMs) como o Claude para tarefas que exigem compreensão semântica, como a análise da política de privacidade em relação à lei 152-ФЗ, a classificação do tipo de site para identificar requisitos específicos (médico, e-commerce, etc.) e a avaliação do risco geral. Para otimizar custos, o modelo Claude Haiku é usado para classificação, enquanto o Claude Sonnet é empregado para análises de texto mais profundas e perfis de risco. O plano gratuito do serviço opera apenas com heurísticas, sem o uso de LLMs, para manter os custos operacionais baixos. A escolha de usar um proxy russo para acessar a API da Anthropic foi uma decisão técnica e estratégica, evitando a transferência transfronteiriça de dados pessoais dos sites analisados, o que seria irônico dado o propósito do serviço. A otimização de custos é ainda aprimorada através do 'prompt caching', onde o prompt do sistema com regras e exemplos é cacheado para reduzir o número de tokens processados em cada requisição, especialmente em verificações em lote. O autor também detalha os desafios técnicos encontrados, como o comportamento inesperado do metacaractere em JavaScript com texto cirílico, a dificuldade em distinguir identificadores de Google Analytics de variáveis CSS com nomes semelhantes, e a necessidade de listas de permissão para evitar falsos positivos com serviços locais como o Yandex.Metrica. Um desafio adicional foi a renderização de caracteres especiais, como o símbolo do Rublo, em relatórios PDF, e a complexidade de mapear corretamente as violações encontradas para as seções específicas dos artigos de lei e suas respectivas multas, exigindo verificação manual constante das fontes legais. Por fim, o autor compartilha os resultados de uma análise em um lote de 80 sites B2B, revelando uma baixa conformidade geral (média de 38/100), com infrações comuns relacionadas a dados pessoais e consentimento de cookies, atribuindo isso a práticas de desenvolvimento desatualizadas e à falta de fiscalização proativa.
📤 Compartilhar & Baixar
🧰 Ferramentas recomendadas
Divulgação: alguns links são patrocinados. Podemos receber comissão se você comprar — sem custo extra para você. Só indicamos o que faz sentido para a comunidade.