O Império Contra-Ataca: kad.arbitr.ru Retorna ao Parsing (Parte 1)

Este artigo detalha a análise de um site governamental russo, kad.arbitr.ru, focado em informações de processos judiciais. O autor explora as técnicas de proteção anti-bot do site e como contorná-las, utilizando ferramentas como DevTools e curl para identificar e reproduzir requisições. A primeira parte foca na identificação de endpoints, cabeçalhos e arquivos-chave para a proteção anti-bot, preparando o terreno para a próxima etapa: a engenharia reversa das proteções.

MundiX News·02 de maio de 2026·7 min de leitura·👁 5 views

No mundo da cibersegurança e da coleta de dados, a batalha entre a obtenção de informações e a proteção contra acessos automatizados é constante. Neste artigo, mergulhamos na análise do site kad.arbitr.ru, um recurso que fornece informações sobre processos judiciais na Rússia. O objetivo é entender como o site se protege contra a coleta automatizada de dados (parsing) e como contornar essas proteções.

O site kad.arbitr.ru, como muitos sites governamentais, pode parecer desatualizado à primeira vista. No entanto, por trás da interface, esconde-se uma proteção considerável contra aqueles que buscam coletar informações de forma automatizada. A tarefa inicial é monitorar o andamento de processos com base em um determinado critério, como o número de identificação fiscal (INN) ou nome completo. Para isso, o autor inicia a análise explorando a API do site, investigando as diferentes formas de resposta: HTML bruto, JSON API sem proteção ou JSON API com proteção anti-bot (o cenário mais provável).

A análise começa com o uso do DevTools do navegador para examinar as requisições de rede. Ao inserir um INN conhecido, o autor observa os arquivos carregados e identifica a requisição SearchInstances como a mais promissora. Ao analisar os cabeçalhos da requisição, são identificados dados importantes, incluindo cookies e informações sobre o navegador. Os cookies revelam dados de rastreamento de serviços como Yandex e Google Analytics, além de identificadores de sessão e outros identificadores únicos. Além disso, são identificados campos cruciais para a proteção anti-bot, como pr_fp (fingerprint do navegador) e wasm (provavelmente relacionado ao WebAssembly). O autor então tenta reproduzir a requisição usando curl, removendo gradualmente os campos suspeitos de serem parte da proteção anti-bot. Após várias iterações, os campos fingerprint e wasm permanecem como elementos críticos para a requisição. A análise continua investigando os arquivos que geram esses campos, identificando o arquivo wasm e o arquivo fp.js como responsáveis pela geração do fingerprint. A primeira parte da análise conclui com a identificação dos principais endpoints, dos cabeçalhos que podem ser ignorados e daqueles que participam da proteção anti-bot. A próxima etapa, que será abordada na segunda parte, envolverá a engenharia reversa para contornar essas proteções.