Teste de 1935 Revela Fraqueza em GPT-4o e Claude Considerada Humana
Modelos de linguagem avançados como GPT-4o e Claude 3.5 Sonnet, capazes de tarefas complexas, falham em um teste psicológico centenário que avalia a atenção e o controle cognitivo, demonstrando uma vulnerabilidade inesperada.
MundiX News·26 de junho de 2026·4 min de leitura·👁 1 views
Testes psicológicos desenvolvidos no início do século XX continuam a desafiar até mesmo as inteligências artificiais mais sofisticadas. Uma análise recente utilizando o Teste de Stroop, criado em 1935, revelou que modelos de linguagem de ponta como o GPT-4o e o Claude 3.5 Sonnet exibem uma fraqueza que antes se acreditava ser exclusiva da cognição humana: a dificuldade em manter o foco e o controle sob carga de informação crescente e conflituosa.
Esses modelos, conhecidos por sua habilidade em gerar código, compor textos e manter diálogos extensos, demonstraram um desempenho notável em tarefas curtas e diretas. No entanto, ao serem submetidos a listas mais longas e complexas no Teste de Stroop, sua precisão caiu drasticamente. O teste, que exige que os participantes nomeiem a cor da tinta em que uma palavra está escrita (ignorando o significado da palavra em si), expõe a tendência humana de ler a palavra automaticamente, em vez de focar na cor. Modelos como o GPT-4o e o Claude 3.5 Sonnet, ao se depararem com listas extensas, começaram a falhar, respondendo com o significado da palavra em vez da cor, um padrão que se assemelha à dificuldade humana em suprimir respostas automáticas e manter a atenção em uma tarefa específica.
A arquitetura subjacente a esses modelos, baseada em mecanismos de auto-atenção (self-attention) popularizados a partir de 2017, permite que eles ponderem a importância de diferentes partes do texto (tokens) para construir respostas coerentes. Essa abordagem é eficaz para capturar relações de longo alcance em textos e manter o contexto. No entanto, o Teste de Stroop sugere que essa forma de 'atenção' matemática, embora poderosa para processamento de linguagem, carece de um mecanismo de controle executivo robusto, semelhante ao encontrado no cérebro humano. Esse controle executivo é o que permite aos humanos ignorar distrações, suprimir respostas habituais e retornar a um objetivo, mesmo quando confrontados com informações conflitantes. Embora os modelos possam 'entender' as regras do Teste de Stroop, eles falham em aplicá-las consistentemente em cenários mais desafiadores, indicando uma limitação na capacidade de manter um objetivo definido ao longo de uma sequência longa e complexa de estímulos.
Essa descoberta tem implicações significativas para o futuro do desenvolvimento de IA. Enquanto os modelos atuais se destacam em tarefas que se beneficiam da continuidade e da fluidez da linguagem, aplicações mais complexas que exigem raciocínio multi-etapas, cálculos científicos ou desenvolvimento de medicamentos podem necessitar de mecanismos de controle mais sofisticados. A capacidade de um modelo não apenas de gerar uma resposta plausível, mas de aderir rigorosamente a um conjunto de regras sob pressão, é crucial. O Teste de Stroop, com sua simplicidade e rigor, destaca uma área onde a IA ainda precisa evoluir para igualar ou superar a resiliência e o controle atencional humano, especialmente em face de tarefas que demandam persistência e supressão de vieses automáticos.
🛡️⚡
Pare de pesquisar. Comece a hackear.
O MundiX é seu copiloto de pentest com IA: comandos exatos, análise de outputs e próximo passo na kill chain — em segundos.
Sem cartão para começar · Planos a partir de R$49/mês
Testes psicológicos desenvolvidos no início do século XX continuam a desafiar até mesmo as inteligências artificiais mais sofisticadas. Uma análise recente utilizando o Teste de Stroop, criado em 1935, revelou que modelos de linguagem de ponta como o GPT-4o e o Claude 3.5 Sonnet exibem uma fraqueza que antes se acreditava ser exclusiva da cognição humana: a dificuldade em manter o foco e o controle sob carga de informação crescente e conflituosa.
Esses modelos, conhecidos por sua habilidade em gerar código, compor textos e manter diálogos extensos, demonstraram um desempenho notável em tarefas curtas e diretas. No entanto, ao serem submetidos a listas mais longas e complexas no Teste de Stroop, sua precisão caiu drasticamente. O teste, que exige que os participantes nomeiem a cor da tinta em que uma palavra está escrita (ignorando o significado da palavra em si), expõe a tendência humana de ler a palavra automaticamente, em vez de focar na cor. Modelos como o GPT-4o e o Claude 3.5 Sonnet, ao se depararem com listas extensas, começaram a falhar, respondendo com o significado da palavra em vez da cor, um padrão que se assemelha à dificuldade humana em suprimir respostas automáticas e manter a atenção em uma tarefa específica.
A arquitetura subjacente a esses modelos, baseada em mecanismos de auto-atenção (self-attention) popularizados a partir de 2017, permite que eles ponderem a importância de diferentes partes do texto (tokens) para construir respostas coerentes. Essa abordagem é eficaz para capturar relações de longo alcance em textos e manter o contexto. No entanto, o Teste de Stroop sugere que essa forma de 'atenção' matemática, embora poderosa para processamento de linguagem, carece de um mecanismo de controle executivo robusto, semelhante ao encontrado no cérebro humano. Esse controle executivo é o que permite aos humanos ignorar distrações, suprimir respostas habituais e retornar a um objetivo, mesmo quando confrontados com informações conflitantes. Embora os modelos possam 'entender' as regras do Teste de Stroop, eles falham em aplicá-las consistentemente em cenários mais desafiadores, indicando uma limitação na capacidade de manter um objetivo definido ao longo de uma sequência longa e complexa de estímulos.
Essa descoberta tem implicações significativas para o futuro do desenvolvimento de IA. Enquanto os modelos atuais se destacam em tarefas que se beneficiam da continuidade e da fluidez da linguagem, aplicações mais complexas que exigem raciocínio multi-etapas, cálculos científicos ou desenvolvimento de medicamentos podem necessitar de mecanismos de controle mais sofisticados. A capacidade de um modelo não apenas de gerar uma resposta plausível, mas de aderir rigorosamente a um conjunto de regras sob pressão, é crucial. O Teste de Stroop, com sua simplicidade e rigor, destaca uma área onde a IA ainda precisa evoluir para igualar ou superar a resiliência e o controle atencional humano, especialmente em face de tarefas que demandam persistência e supressão de vieses automáticos.
📤 Compartilhar & Baixar
🧰 Ferramentas recomendadas
Divulgação: alguns links são patrocinados. Podemos receber comissão se você comprar — sem custo extra para você. Só indicamos o que faz sentido para a comunidade.