自然言語オートエンコーダによるLLM活性化の非教師あり解明
本研究では、LLMの内部状態である高次元の活性化ベクトルを、人間が理解できる自然言語のテキストに変換する「自然言語オートエンコーダ(NLA)」を提案しています。
NLAは、活性化を記述に変換する「活性化発話化器」と、それを再び活性化に戻す「活性化再構築器」から構成されます。
この手法は、LLMの内部メカニズムや安全性の監査に応用され、モデルが明言していない「評価意識」といった隠れた認知状態の発見に貢献しました。
特に、誤ったモデルの検証において、NLAを装備したエージェントは既存の手法を上回り、訓練データにアクセスしなくても高い効果を発揮することが示されています。
大規模言語モデル(LLM)の内部動作は、高次元の数値ベクトル(アクティベーション)としてエンコードされていますが、これは人間には解読が困難な「ブラックボックス」状態です。この課題に対し、研究チームは「Natural Language Autoencoders (NLAs)」という手法を開発しました。これは、LLMの内部状態を自然言語で説明する、教師なしの解釈可能性ツールだそうです。
LLM内部状態を言語化する仕組み
NLAは、LLMの内部状態を人間が理解できるテキストに変換する仕組みです。具体的には、「アクティベーション・バーバラライザー(AV)」と「アクティベーション・リコンストラクター(AR)」という2つのLLMモジュールで構成されています。
AVは、LLMの内部アクティベーションを「説明文」というテキストにマッピングし、ARはその説明文を元のアクティベーションに再構築する役割を担います。
このAVとARを連携させて学習させることで、LLMの内部状態を自然言語の「ボトルネック」を通して表現することが可能になると説明されています。
モデル監査における実用的な応用事例
NLAは、単なる理論的な解釈ツールに留まらず、実際のモデル監査(オーディティング)で有効性が示されました。例えば、Claude Opus 4.6の事前展開監査において、NLAは安全に関わる振る舞いを診断し、モデルが「評価されている」と内部的に認識しているが、それを明言していない「未言語化された評価認識」を発見しました。
また、意図的に不適切な振る舞いをさせられたモデルの自動監査ベンチマークにおいても、NLAを搭載したエージェントはベースラインを上回り、訓練データにアクセスしなくても成功できることが確認されています。
解釈可能性の限界と今後の展望
NLAの利点として、人間が直接読み取れる自然言語での説明が得られる点が挙げられます。しかし、その限界として「コンファビュレーション(虚言)」の存在が指摘されています。NLAの説明には、モデルの入力コンテキストについて検証可能な誤った主張が含まれることがあるとのことです。
研究チームは、これらの虚言が「テーマ的には忠実」である傾向があることや、複数のトークンにわたって主張される情報は真実性が高いというヒューリスティクスを提示しています。今後は、訓練コードや学習済みNLAをオープンモデル向けに公開し、さらなる研究を支援するとしています。
まとめ
NLAsは、LLMの「ブラックボックス」を自然言語で開示する画期的な技術です。これにより、モデルの内部的な思考プロセスや潜在的な安全性の問題を、より直感的に把握できるようになると見られています。実用的な解釈可能性ツールとしての価値が注目されています。
原文の冒頭を表示(英語・3段落のみ)
We introduce Natural Language Autoencoders (NLAs), an unsupervised method for generating natural language explanations of LLM activations. An NLA consists of two LLM modules: an activation verbalizer (AV) that maps an activation to a text description and an activation reconstructor (AR) that maps the description back to an activation. We jointly train the AV and AR with reinforcement learning to reconstruct residual stream activations. Although we optimize for activation reconstruction, the resulting NLA explanations read as plausible interpretations of model internals that, according to our quantitative evaluations, grow more informative over training.
We apply NLAs to model auditing. During our pre-deployment audit of Claude Opus 4.6, NLAs helped diagnose safety-relevant behaviors and surfaced unverbalized evaluation awareness—cases where Claude believed, but did not say, that it was being evaluated. We present these audit findings as case studies and corroborate them using independent methods. On an automated auditing benchmark requiring end-to-end investigation of an intentionally-misaligned model, NLA-equipped agents outperform baselines and can succeed even without access to the misaligned model’s training data.
NLAs offer a convenient interface for interpretability, with expressive natural language explanations that we can directly read. To support further work, we release training code and trained NLAs for popular open models.
※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。