Mais um Passo em Direção à IA Explicável: Anthropic Aprende a Ler Estados Ocultos de LLMs
A Anthropic desenvolveu uma nova abordagem chamada Natural Language Autoencoders (NLA) para traduzir ativações de modelos de linguagem em texto compreensível. O NLA é usado para auditar modelos antes da implantação, revelando informações sobre como os modelos tomam decisões e até mesmo sobre sua consciência.
MundiX News·14 de maio de 2026·10 min de leitura·👁 3 views
Avanços recentes no campo da Inteligência Artificial (IA) têm focado em tornar os modelos de linguagem maiores e mais poderosos. No entanto, a complexidade desses modelos muitas vezes dificulta a compreensão de como eles chegam a suas conclusões. A Anthropic, uma empresa líder em pesquisa de IA, deu um passo significativo para resolver esse problema, desenvolvendo uma nova técnica que permite "ler" os estados ocultos de Large Language Models (LLMs).
A nova abordagem, chamada Natural Language Autoencoders (NLA), traduz as ativações dos modelos em texto compreensível. O NLA consiste em dois módulos: um Verbalizador de Ativações (AV) que gera descrições textuais das ativações e um Reconstrutor de Ativações (AR) que tenta reconstruir as ativações originais a partir das descrições textuais. O processo de treinamento envolve o uso de Reinforcement Learning (RL) para otimizar a capacidade do Verbalizador de gerar explicações significativas e a capacidade do Reconstrutor de reconstruir as ativações com precisão. O resultado é uma ferramenta que pode fornecer insights sobre o raciocínio interno dos LLMs.
A Anthropic tem usado o NLA para auditar seus modelos antes da implantação, revelando informações valiosas sobre como os modelos tomam decisões. Por exemplo, o NLA pode identificar se um modelo está planejando rimas em poemas, detectando a intenção de usar uma palavra específica em uma fase inicial. Ele também pode revelar se um modelo está ciente de que está sendo testado, mesmo que não expresse essa consciência explicitamente. Além disso, o NLA pode ser usado para criar vetores de direcionamento (steering vectors) que permitem aos pesquisadores manipular o comportamento do modelo, alterando suas respostas de maneira previsível. A capacidade de "ler" os estados ocultos dos LLMs e influenciar seu comportamento representa um avanço significativo na direção de uma IA mais transparente e controlável. A Anthropic disponibilizou o código para treinamento e demonstrações interativas, abrindo caminho para que outros pesquisadores explorem e aprimorem essa técnica.
Avanços recentes no campo da Inteligência Artificial (IA) têm focado em tornar os modelos de linguagem maiores e mais poderosos. No entanto, a complexidade desses modelos muitas vezes dificulta a compreensão de como eles chegam a suas conclusões. A Anthropic, uma empresa líder em pesquisa de IA, deu um passo significativo para resolver esse problema, desenvolvendo uma nova técnica que permite "ler" os estados ocultos de Large Language Models (LLMs).
A nova abordagem, chamada Natural Language Autoencoders (NLA), traduz as ativações dos modelos em texto compreensível. O NLA consiste em dois módulos: um Verbalizador de Ativações (AV) que gera descrições textuais das ativações e um Reconstrutor de Ativações (AR) que tenta reconstruir as ativações originais a partir das descrições textuais. O processo de treinamento envolve o uso de Reinforcement Learning (RL) para otimizar a capacidade do Verbalizador de gerar explicações significativas e a capacidade do Reconstrutor de reconstruir as ativações com precisão. O resultado é uma ferramenta que pode fornecer insights sobre o raciocínio interno dos LLMs.
A Anthropic tem usado o NLA para auditar seus modelos antes da implantação, revelando informações valiosas sobre como os modelos tomam decisões. Por exemplo, o NLA pode identificar se um modelo está planejando rimas em poemas, detectando a intenção de usar uma palavra específica em uma fase inicial. Ele também pode revelar se um modelo está ciente de que está sendo testado, mesmo que não expresse essa consciência explicitamente. Além disso, o NLA pode ser usado para criar vetores de direcionamento (steering vectors) que permitem aos pesquisadores manipular o comportamento do modelo, alterando suas respostas de maneira previsível. A capacidade de "ler" os estados ocultos dos LLMs e influenciar seu comportamento representa um avanço significativo na direção de uma IA mais transparente e controlável. A Anthropic disponibilizou o código para treinamento e demonstrações interativas, abrindo caminho para que outros pesquisadores explorem e aprimorem essa técnica.