Eu escaneei 30 servidores MCP públicos: quase metade nem chegou à pontuação

Eu escaneei 30 servidores MCP públicos: quase metade nem chegou à pontuação

Uma análise da prontidão para uso de servidores MCP públicos revelou desafios significativos na inicialização e configuração, impactando a integração com agentes de IA. A ferramenta MCP Scorecard foi criada para avaliar a qualidade dos servidores, destacando problemas de launchability e esquemas de entrada fracos.

MundiX News·13 de abril de 2026·5 min de leitura·👁 6 views

Eu escaneei 30 servidores MCP públicos e rapidamente percebi que a dor principal do ecossistema reside na simples capacidade de inicialização (launchability): alguns servidores simplesmente não iniciam em modo headless, exigem configuração oculta ou corrompem o protocolo com lixo no stdout.

Atualmente, os servidores MCP tornaram-se para os agentes LLM o que os pacotes comuns e as integrações de API já foram para os desenvolvedores: uma forma padrão de dar ao modelo acesso ao mundo externo. Na prática, isso é simples: encontramos um servidor no registro, conectamos a Cline, Roo Code, Codex ou outro cliente e esperamos que tudo funcione sozinho. Mas, muitas vezes, em vez de mágica, acontece o seguinte:

  • o agente trava na inicialização;
  • a ferramenta inicia, mas depois falha devido a um esquema defeituoso;
  • o servidor grava texto extra no stdout e quebra o JSON-RPC;
  • o modelo começa a alucinar argumentos porque o esquema de entrada é descrito de forma muito fraca;
  • um alto blast radius vaza repentinamente para o processo: sistema de arquivos, chamadas de rede, comandos de shell.

Para lidar com esses problemas, foi criado o MCP Scorecard, um scanner determinístico CI-first para qualidade de servidores. Para testá-lo em condições reais, executei-o em 30 projetos públicos. O resultado foi mais interessante do que eu esperava.

O MCP Scorecard é um scanner determinístico que executa o servidor MCP localmente via stdio, passa pelo initialize, obtém tools/list, executa a superfície de ferramentas disponível através de um conjunto de verificações, calcula uma pontuação (score) e salva o resultado. Ele avalia o cumprimento do protocolo, segurança (presença de acessos perigosos como console, exclusão de arquivos, rede), facilidade de uso para IA (qualidade da descrição dos argumentos) e preenchimento de metadados.

O teste envolveu 30 servidores MCP públicos de diferentes categorias, incluindo servidores de referência oficiais e servidores públicos de registro. O objetivo era verificar a prontidão do servidor para execução cega e reproduzível em um cenário semelhante ao CI. O sucesso foi medido pela capacidade de iniciar, inicializar, retornar uma lista de ferramentas e construir um relatório de scorecard. Quaisquer timeouts, erros de ambiente, lixo nos logs ou requisitos de interatividade resultaram em falha.

Os resultados mostraram que quase metade dos servidores falhou na inicialização. Entre os servidores que foram iniciados com sucesso, o problema mais comum foi o weak_input_schema. Isso significa que a superfície de entrada é descrita de forma muito fraca: não há tipagem, campos livres são permitidos e os parâmetros required estão ausentes. Para uma stack de agentes, um esquema fraco afeta diretamente o orçamento e a confiabilidade.

O principal insight é que o MCP tem um problema de launchability. A avaliação deve ser dividida em duas camadas: Layer 0 (Preflight / Launchability) para viabilidade básica e Layer 1 (Scorecard / Reviewability) para auditoria de esquemas, ergonomia e segurança. Além disso, um score baixo nem sempre significa um servidor ruim, mas sim a liberdade que você dá ao agente dentro do workflow. O MCP Scorecard abstrai-se da lógica de negócios e mede a superfície de acesso verificável.

O plano de desenvolvimento futuro inclui isolar o estágio de preflight para classificar erros de inicialização, separar problemas de inicialização e pontuações nos relatórios e publicar os resultados da auditoria do ecossistema como um conjunto de dados reproduzível. O MCP está em uma fase clássica de amadurecimento, com padrões, ferramentas e registros existentes, mas a disciplina de engenharia normal está apenas se formando.

🛡️⚡

Pare de pesquisar. Comece a hackear.

O MundiX é seu copiloto de pentest com IA: comandos exatos, análise de outputs e próximo passo na kill chain — em segundos.

Testar grátis por 7 dias →

Sem cartão para começar · Planos a partir de R$49/mês

📤 Compartilhar & Baixar

📩 Newsletter MundiX

Receba novidades de cibersegurança + um checklist de pentest grátis. Sem spam.

Ao assinar você concorda em receber e-mails. Cancele quando quiser.