エージェント型データ分析のためのプロセス報酬モデル
大規模言語モデル(LLM)の推論能力向上に貢献するプロセス報酬モデル(PRM)は、数学などの静的な分野で成果を上げてきた。
本研究では、データ分析という動的なタスクにおいてPRMが抱える課題を検証し、環境に配慮した新しいプロセス報酬モデル「DataPRM」を提案する。
DataPRMは、中間実行状態を検証し、静かなエラーや誤った推論を検出し、試行錯誤の探索を誤ったGroundingと見なさない。
さらに、多様な学習データセットと強化学習により、既存モデルを大幅に上回る性能を実現し、汎化性能も確認された。
大規模言語モデル(LLM)の推論能力を補強する「プロセス報酬モデル(PRM)」が、数学のような静的な領域では大きな成果を上げています。しかし、データ分析のような動的で複雑なタスクにおいては、その適用範囲がまだ十分に探求されていません。今回、研究チームは、このギャップを埋めるための新しいモデル「DataPRM」を発表しました。
従来のPRMが抱える課題
従来のPRMは、データ分析エージェントの動作を適切に監視する能力に限界があることが、実証研究によって明らかになりました。具体的には、計算結果が間違っていても、プログラムの例外(エラー)を発生させない「サイレントエラー」を見つけ出すことが困難です。また、必要な試行錯誤の過程を、単なる「根拠の失敗」として誤って罰してしまうという問題も指摘されています。
環境認識型DataPRMの仕組み
この課題を解決するため、研究チームは「DataPRM」という新しい環境認識型の生成プロセス報酬モデルを導入しました。DataPRMは、環境と能動的に対話することで、中間実行状態を調査し、サイレントエラーを自律的に発見する「アクティブ検証者」として機能します。さらに、修正可能な根拠エラーと回復不可能なミスを区別する「リフレクション認識型の三値報酬戦略」を採用している点も特徴です。
実証実験による性能向上
DataPRMは、多様な軌道生成と知識を補完したステップレベルの注釈付けを通じて、8,000件以上の高品質な学習インスタンスを構築しました。実験の結果、DataPRMを適用することで、ScienceAgentBenchやDABStepといったベンチマークにおいて、大幅な性能向上(それぞれ7.21%、11.28%)が確認されました。特に、4Bパラメータという比較的小さなモデルサイズでありながら、強力なベースラインを上回る汎用性を示しています。
まとめ
DataPRMの導入は、LLMが単なる最終結果だけでなく、データ分析の「プロセス」全体を正確に評価し、学習できることを証明しました。これは、AIエージェントがより信頼性の高い、高度なデータ分析能力を獲得するための重要な一歩と見られています。
原文の冒頭を表示(英語・3段落のみ)
View PDF
HTML (experimental)
Abstract:Process Reward Models (PRMs) have achieved remarkable success in augmenting the reasoning capabilities of Large Language Models (LLMs) within static domains such as mathematics. However, their potential in dynamic data analysis tasks remains underexplored. In this work, we first present a empirical study revealing that general-domain PRMs struggle to supervise data analysis agents. Specifically, they fail to detect silent errors, logical flaws that yield incorrect results without triggering interpreter exceptions, and erroneously penalize exploratory actions, mistaking necessary trial-and-error exploration for grounding failures. To bridge this gap, we introduce DataPRM, a novel environment-aware generative process reward model that (1) can serve as an active verifier, autonomously interacting with the environment to probe intermediate execution states and uncover silent errors, and (2) employs a reflection-aware ternary reward strategy that distinguishes between correctable grounding errors and irrecoverable mistakes. We design a scalable pipeline to construct over 8K high-quality training instances for DataPRM via diversity-driven trajectory generation and knowledge-augmented step-level annotation. Experimental results demonstrate that DataPRM improves downstream policy LLMs by 7.21% on ScienceAgentBench and 11.28% on DABStep using Best-of-N inference. Notably, with only 4B parameters, DataPRM outperforms strong baselines, and exhibits robust generalizability across diverse Test-Time Scaling strategies. Furthermore, integrating DataPRM into Reinforcement Learning yields substantial gains over outcome-reward baselines, achieving 78.73% on DABench and 64.84% on TableBench, validating the effectiveness of process reward supervision. Code is available at this https URL.
※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。