Como Tornar Agentes de IA Seguros: Uma Análise da Arquitetura de Segurança da OpenAI

Como Tornar Agentes de IA Seguros: Uma Análise da Arquitetura de Segurança da OpenAI

A OpenAI revela sua arquitetura de segurança para agentes de IA, abordando desde sandboxing e políticas de aprovação até gerenciamento de rede e telemetria avançada. O artigo detalha as camadas de proteção implementadas para garantir a segurança em sistemas de IA.

MundiX News·14 de maio de 2026·5 min de leitura·👁 16 views

Como Tornar Agentes de IA Seguros: Uma Análise da Arquitetura de Segurança da OpenAI

Com o crescente uso de agentes de Inteligência Artificial (IA) capazes de ler repositórios, executar comandos shell e interagir com ferramentas de desenvolvimento, a segurança da informação se torna uma preocupação primordial. A OpenAI publicou detalhes sobre como eles abordam a segurança de seus agentes internamente. Vamos analisar essa arquitetura em detalhes.

O que é Codex?

Codex é um agente de IA que navega autonomamente por repositórios, executa comandos, acessa APIs externas e ferramentas de desenvolvedor. Agentes podem operar em paralelo, em cópias isoladas de código, permitindo que o usuário alterne entre tarefas, visualize alterações e obtenha resultados. Diante da possibilidade de ambientes multi-agentes que dispensam a intervenção humana, a questão da segurança se torna ainda mais crítica.

A Abordagem da OpenAI

A OpenAI implementou um princípio claro: ações de baixo risco são executadas sem interrupção, enquanto ações de alto risco passam por verificação.

Camada 1: Sandbox e Sistema de Aprovações

A primeira linha de defesa é o sandbox. Ele define os limites técnicos de execução, incluindo onde o Codex pode escrever e quais caminhos ele pode acessar, garantindo a proteção de áreas sensíveis. Acima do sandbox, opera uma política de aprovações: se um agente precisa realizar uma ação fora do sandbox, ele deve solicitar permissão. O usuário pode aprovar a ação individualmente ou permitir uma classe inteira de ações para a sessão.

Para evitar que o agente se torne uma máquina de aprovações, a OpenAI adicionou o modo de auto-revisão (auto_review). Este é um subagente que aprova silenciosamente solicitações de baixo risco sem interromper o usuário. No entanto, se algo incomum ou potencialmente perigoso surgir, o controle é transferido para um humano.

toml
# config.toml
approvals_reviewer = "auto_review"
sandbox_workspace_write.writable_roots = ["~/development"]

# requirements.toml
allowed_sandbox_modes = ["read-only", "workspace-write"]

Camada 2: Gerenciamento de Rede

O Codex não tem acesso de saída irrestrito. A política de rede é baseada em uma allowlist: apenas o que é explicitamente permitido é autorizado.

toml
# requirements.toml
allowed_web_search_modes = ["cached"]

[experimental_network]
enabled = true
allow_local_binding = true
denied_domains = ["pastebin.com"]
allowed_domains = ["login.microsoftonline.com", "*.openai.com"]

A lógica é simples: o agente deve ser capaz de executar processos de trabalho padrão, acessar os serviços necessários e trabalhar com localhost, mas não deve ter a capacidade de enviar dados para qualquer lugar. Um domínio desconhecido fora da lista resultará em uma pausa e uma solicitação de aprovação.

Camada 3: Regras no Nível de Comando

Nem todos os comandos shell são igualmente seguros. A OpenAI define políticas granulares através de prefix_rules: comandos padrão para leitura e inspeção (por exemplo, logs do Kubernetes) são permitidos sem aprovação, enquanto padrões potencialmente destrutivos são imediatamente bloqueados ou exigem permissão explícita.

# default.rules
prefix_rule(
    pattern = ["gh", "pr", ["view", "list"]],
    decision = "allow",
    justification = "Allows read-only GitHub PR inspection via gh CLI.",
)
prefix_rule(
    pattern = ["kubectl", ["get", "describe", "logs"]],
    decision = "allow",
    justification = "Allows Kubernetes resource inspection for debugging.",
)

Isso permite que o Codex lide rapidamente com tarefas de engenharia diárias sem parar em cada git status, mas sem executar nada destrutivo em silêncio.

Camada 4: Autenticação e Gerenciamento de Credenciais

As credenciais CLI e MCP OAuth são armazenadas no keychain do sistema operacional, e não em arquivos de configuração ou variáveis de ambiente. O login é feito apenas através do ChatGPT Workspace corporativo.

toml
# config.toml
cli_auth_credentials_store = "keyring"
mcp_oauth_credentials_store = "keyring"
forced_login_method = "chatgpt"
forced_chatgpt_workspace_id = "<workspace-uuid>"

Essa abordagem oferece duas vantagens: primeiro, toda a atividade do Codex está vinculada a um espaço de trabalho específico e é registrada na plataforma de conformidade da OpenAI. Segundo, a comprometimento da configuração não equivale ao comprometimento das credenciais.

Camada 5: Telemetria no Nível do Agente

Os logs de segurança tradicionais registram fatos: um processo foi iniciado, um arquivo foi modificado, uma conexão de rede foi estabelecida. Eles não respondem à pergunta por quê. O Codex exporta logs OpenTelemetry com contexto completo do agente: solicitação do usuário, decisões de aprovação de ferramentas, resultados de execução, uso de servidores MCP, eventos de rede (permitido/bloqueado).

toml
# config.toml
[otel]
log_user_prompt = true
environment = "prod"

[otel.exporter.otlp-http]
endpoint = "http://localhost:14318/v1/logs"
protocol = "binary"

Esses logs podem ser enviados para qualquer SIEM. A OpenAI foi além: eles adicionaram um agente de IA para classificação de segurança, que analisa os logs do Codex no contexto de alertas de segurança de endpoint. Uma IA monitora a outra e explica à equipe de segurança se o comportamento foi normal, um erro inofensivo ou algo que realmente precisa ser escalado.

Conclusão

Ao analisar o sistema, a OpenAI construiu várias camadas de controle independentes que trabalham juntas: limitação técnica (sandbox) → limitação comportamental (regras de comando) → isolamento de rede → gerenciamento de identidade → telemetria com contexto → triagem de IA sobre telemetria. Cada camada resolve seu próprio problema e não depende de que a anterior funcione perfeitamente. Isso é defense in depth, embora não seja um conceito novo, mas aplicado a sistemas de agentes de forma bastante consistente.

🛡️⚡

Pare de pesquisar. Comece a hackear.

O MundiX é seu copiloto de pentest com IA: comandos exatos, análise de outputs e próximo passo na kill chain — em segundos.

Testar grátis por 7 dias →

Sem cartão para começar · Planos a partir de R$49/mês

📤 Compartilhar & Baixar

🧰 Ferramentas recomendadas

Divulgação: alguns links são patrocinados. Podemos receber comissão se você comprar — sem custo extra para você. Só indicamos o que faz sentido para a comunidade.

Aprendendo Kali Linux: Teste de segurança, pentest e hacking ético

Aprendendo Kali Linux: Teste de segurança, pentest e hacking ético

Com centenas de ferramentas pré-instaladas, a distribuição Kali Linux facilita o trabalho de os profissionais de segurança começarem a fazer testes de segurança rapidamente. No entanto, com mais de 600 ferramentas em seu arsenal, o Kali Linux também pode ser desafiador. A nova edição deste prático livro abrange as atualizações nas ferramentas e inclui uma melhor abordagem da análise forense e da engenharia reversa. Ric Messier, autor, não fica apenas no teste de segurança, mas também faz uma abordagem sobre a execução de análise forense, incluindo a análise em disco e na memória, assim como alguma análise básica de malware. • Explore as diversas ferramentas disponíveis no Kali Linux • Entenda o valor do teste de segurança e examine os tipos de teste disponíveis • Aprenda os aspectos básicos do pentest em todo o ciclo de vida do ataque • Instale o Kali Linux em vários sistemas, tanto físicos quanto virtuais • Descubra como usar diferentes ferramentas destinadas à segurança • Estruture um teste de segurança baseado nas ferramentas do Kali Linux • Estenda as ferramentas do Kali para criar técnicas de ataque avançadas • Use o Kali Linux para ajudar a criar relatórios quando o teste terminar “A abordagem concisa, clara e baseada na experiência adotada por Ric Messier para a introdução do Kali Linux e dos testes de cibersegurança é incomparável. Este livro é uma leitura excelente e acessível para iniciantes e um recurso valioso para qualquer pessoa.” —Alexander Arlt, Consultor sênior de segurança, Google

Ver na Amazon
Gshield 2 em 1 Hub Extensor Conector USB-C + USB-A e Adaptador de Rede Ethernet LAN RJ45 com 3 Entradas USB 3.0 até 5 Gbps em Liga de Alumínio para Computador e Notebook, Cinza

Gshield 2 em 1 Hub Extensor Conector USB-C + USB-A e Adaptador de Rede Ethernet LAN RJ45 com 3 Entradas USB 3.0 até 5 Gbps em Liga de Alumínio para Computador e Notebook, Cinza

Compatível com portas USB-C e USB-A, ideal para ampliar a conectividade de dispositivos como MacBook Pro e outros com portas USB-C. Inclui um adaptador USB-A extra, proporcionando uma conexão Ethernet estável e veloz de até 1 Gbps, perfeita para filmes, jogos online e videoconferências. Oferece três portas USB 3.0 com velocidades de transferência de até 5 Gbps, permitindo conectar mouse, teclado, discos rígidos e outros periféricos. Fabricado em alumínio durável, garantindo longa vida útil e resistência ao uso diário. Design compacto e leve, ideal para viagens de negócios e uso diário, facilitando o transporte e armazenamento. Funciona com Windows 10/8.1/8, Mac OS e Chrome OS, oferecendo versatilidade incomparável para diversas necessidades de conectividade. Assegura uma conectividade estável e rápida, perfeita para tarefas exigentes como transferência de dados, streaming e mais.

Ver na Amazon
Hacking APIs: Breaking Web Application Programming Interfaces

Hacking APIs: Breaking Web Application Programming Interfaces

Hacking APIs is a crash course on web API security testing that will prepare you to penetration-test APIs, reap high rewards on bug bounty programs, and make your own APIs more secure. You'll learn how REST and GraphQL APIs work in the wild and set up a streamlined API testing lab with Burp Suite and Postman. Then you'll master tools useful for reconnaissance, endpoint analysis, and fuzzing, such as Kiterunner and OWASP Amass. Next, you'll learn to perform common attacks, like those targeting an API's authentication mechanisms and the injection vulnerabilities commonly found in web applications. You'll also learn techniques for bypassing protections against these attacks. In the book's nine guided labs, which target intentionally vulnerable APIs, you'll practice: Enumerating APIs users and endpoints using fuzzing techniques Using Postman to discover an excessive data exposure vulnerability Performing a JSON Web Token attack against an API authentication process Combining multiple API attack techniques to perform a NoSQL injection Attacking a GraphQL API to uncover a broken object level authorization vulnerability

Ver oferta
Gray Hat Hacking: The Ethical Hacker's Handbook, Sixth Edition

Gray Hat Hacking: The Ethical Hacker's Handbook, Sixth Edition

Up-to-date strategies for thwarting the latest, most insidious network attacks This fully updated, industry-standard security resource shows, step by step, how to fortify computer networks by learning and applying effective ethical hacking techniques. Based on curricula developed by the authors at major security conferences and colleges, the book features actionable planning and analysis methods as well as practical steps for identifying and combating both targeted and opportunistic attacks. Gray Hat Hacking: The Ethical Hacker's Handbook, Sixth Edition clearly explains the enemy's devious weapons, skills, and tactics and offers field-tested remedies, case studies, and testing labs. You will get complete coverage of Internet of Things, mobile, and Cloud security along with penetration testing, malware analysis, and reverse engineering techniques. State-of-the-art malware, ransomware, and system exploits are thoroughly explained. Fully revised content includes 7 new chapters covering the latest threats Includes proof-of-concept code stored on the GitHub repository Authors train attendees at major security conferences, including RSA, Black Hat, Defcon, and B-Sides

Ver na Amazon
Bloqueador USB de privacidade de porta USB para PC, notebook, bloco de laptop,

Bloqueador USB de privacidade de porta USB para PC, notebook, bloco de laptop,

Proteção de privacidade aprimorada: protege o link de transmissão de dados para evitar roubo de informações, fornecendo proteção de segurança robusta que protege a privacidade do usuário durante transferências de arquivos e garante uma conexão segura para interações de dispositivos sem preocupações em vários ambientes Uso a longo prazo: a camada protetora resistente ao desgaste, combinada com um corpo de metal resistente, oferece gerenciamento de calor confiável e qualidade duradoura durante o uso diário Entrega eficiente de energia: a tecnologia de chip inteligente garante a identificação automática dos requisitos de energia, fornecendo carregamento eficiente alinhando-se com vários protocolos de carregamento rápido para maior conveniência Proteção contra sobrecarga: evitando riscos de sobrecarga, este bloqueador de dados USB protege a vida útil da bateria e garante um desempenho estável, mantendo um fluxo estável de energia para melhorar a longevidade do dispositivo de forma eficaz Prático de transportar: com atenção à portabilidade, este bloqueador de dados USB oferece um design compacto que é leve e fácil de transportar, melhorando a conveniência do usuário e operação eficiente

Ver na Amazon

📩 Newsletter MundiX

Receba novidades de cibersegurança + um checklist de pentest grátis. Sem spam.

Ao assinar você concorda em receber e-mails. Cancele quando quiser.