オープン解釈性：言語モデルの思考を可視化

2026年05月10日 #Tech

本研究は、言語モデルのアクティベーションを自然言語で説明するNLA（Natural Language Autoencoders）の評価を検証した。

NLAの品質指標であるfve_nrmは、説明の質を示す指標として利用されてきたが、本論文はこれを精査した結果、重要な「乖離」を発見した。

fve_nrmは異なるタスクカテゴリ（チャット、コード、エージェントなど）間でほぼ一定に高い値を示すのに対し、実際のキーワードリコール率はカテゴリ間で大きくばらついた。

この分析から、NLAによる説明は「階層1（フォーマット・カテゴリ）」と「階層2（具体的な内容）」の二層構造になっており、fve_nrmが測るのは前者のフォーマット忠実度であることが明らかになった。

したがって、説明の真のコンテンツ忠実度を評価するためには、fve_nrmに加えてカテゴリ別の意味的リコール指標を併用する必要がある。

大規模言語モデル（LLM）の内部動作を「可視化」する研究が活発化する中、新しい手法が発表されました。これは、AIがどのように推論し、情報を処理しているかを、言語として「思考」させることを目指したものです。本解説では、NLA（Natural Language Autoencoders）という技術の最新の検証結果について解説します。

NLAの基本的な仕組みと検証の目的

NLAは、AIの内部的な「活性化（Activation）」、つまりモデルが情報を処理している際の神経活動を言語化（Verbalization）し、それを元の情報に再構築（Reconstruction）する仕組みです。この再構築の精度を「説明の品質」として利用します。研究チームは、Qwen2.5やGemma3といった主要なモデルを対象に、このNLAの「説明能力」を検証しました。その結果、全体的な説明の精度と、具体的な内容の忠実度との間に大きな乖離があることが示されました。

「形式」と「内容」の二層構造の判明

分析の結果、NLAによる言語化は「二層構造」を持っていることが明らかになりました。第一層（Tier 1）は、プロンプトが「チャット」なのか「コード」なのかといった情報の「形式」や「カテゴリ」を判別する能力であり、この部分の精度がNLAの主要指標（fve_nrm）で測られています。しかし、第二層（Tier 2）であるファイルパスや固有名詞といった具体的な「内容」の再現性は、ほとんど言語化されていない状態にあると結論付けられています。

性能向上における限界と今後の課題

モデルの性能が向上しても、全体的な説明の信号は伸び続けますが、カテゴリごとの詳細な内容再現性のばらつきはある一定水準で飽和するという限界が確認されました。これは、モデルの学習データに含まれる分布の偏りによるものと見られています。この発見は、NLAが「形式分類」は可能でも「内容の復号」はできないという限界を示しており、評価指標としてfve_nrmだけでなく、カテゴリ別の内容再現度を併せて報告する必要があると提言されています。

まとめ

この研究は、LLMの「思考」を可視化する試みに対し、その能力には限界があることを示唆しています。AIの内部動作を深く理解するためには、単一の指標だけでなく、多角的な視点からの分析が不可欠であると再認識させられます。

原文の冒頭を表示（英語・3段落のみ）

Reconstruction Without Recall: Two-Tier Verbalization in Natural Language Autoencoders

Format Granularity Hides Content Decoupling at the Last Token of an Instruct Chat Template

Workshop draft for NeurIPS 2026 Mechanistic Interpretability Workshop.

※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。

— 元記事を読む ↗

元記事を読む ↗