自己蒸留による継続学習の実現

2026年05月17日 #Tech

基盤モデルにとって、既存の知識を保持したまま新たな能力を獲得する「継続学習」は主要な課題です。

従来のデモンストレーションからの学習手法である教師ありファインチューニング（SFT）はオフポリシーであり、この課題に限界がありました。

本研究では、Self-Distillation Fine-Tuning (SDFT) を提案し、デモンストレーションに基づいたオンポリシー学習を実現しました。

SDFTは、条件付きモデルを教師として利用することで、新しいスキルを習得しつつ破滅的忘却を大幅に抑制します。

これにより、単一のモデルが性能の低下なく複数のスキルを時系列で蓄積することが可能となり、継続学習の新たな実用的な道を開きます。

大規模言語モデル（LLM）が新しい知識を習得する際、既存の能力を忘れてしまう「破局的忘却（Catastrophic Forgetting）」は大きな課題です。今回、研究チームは「Self-Distillation Fine-Tuning (SDFT)」という手法を提案しました。これは、既存のモデルが新しいスキルを習得しながらも、過去の能力を維持し続ける「継続的学習（Continual Learning）」を実現するものです。

継続的学習の課題と既存手法

大規模モデルが新しいタスクを学習する際、従来のファインチューニング（SFT）では、新しい情報に特化しすぎるあまり、以前に学んだ知識を忘れてしまう問題があります。この破局的忘却を防ぐため、強化学習（RL）が用いられることがありますが、RLは報酬関数を明示的に定義する必要があり、実用面で難しさがあります。また、専門家のデモンストレーションから学習する手法（教師あり学習）は、本質的にオフポリシー（Off-policy）であるという制約がありました。

SDFTによるオンポリシー学習の実現

提案されたSDFTは、この課題を解決するため、デモンストレーションから直接「オンポリシー（On-policy）」で学習することを可能にしました。SDFTでは、インコンテキスト学習の仕組みを利用し、デモンストレーションを条件としたモデル自身を「教師」として活用します。これにより、新しいスキルを習得する過程で、過去の能力を保持するためのオンポリシーの学習シグナルを生成できるのが特徴です。

性能向上と実用的な応用可能性

実験の結果、SDFTは従来のSFTを上回り、新しいタスクにおける精度向上と破局的忘却の大幅な低減を両立させることが確認されました。特に、連続的な学習実験においては、単一のモデルが時間をかけて複数のスキルを蓄積しても、性能が低下しないことが示されています。これは、デモンストレーションからのオンポリシー蒸留が、継続的学習への実用的な道筋を開くことを示唆しています。

まとめ

SDFTは、LLMが実環境で多様なタスクを順次こなしていくための重要な技術的ブレイクスルーです。この手法により、モデルは知識を「忘れる」ことなく、進化し続けることが期待されます。

原文の冒頭を表示（英語・3段落のみ）

View PDF

HTML (experimental)

Abstract:Continual learning, enabling models to acquire new skills and knowledge without degrading existing capabilities, remains a fundamental challenge for foundation models. While on-policy reinforcement learning can reduce forgetting, it requires explicit reward functions that are often unavailable. Learning from expert demonstrations, the primary alternative, is dominated by supervised fine-tuning (SFT), which is inherently off-policy. We introduce Self-Distillation Fine-Tuning (SDFT), a simple method that enables on-policy learning directly from demonstrations. SDFT leverages in-context learning by using a demonstration-conditioned model as its own teacher, generating on-policy training signals that preserve prior capabilities while acquiring new skills. Across skill learning and knowledge acquisition tasks, SDFT consistently outperforms SFT, achieving higher new-task accuracy while substantially reducing catastrophic forgetting. In sequential learning experiments, SDFT enables a single model to accumulate multiple skills over time without performance regression, establishing on-policy distillation as a practical path to continual learning from demonstrations.

※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。

— 元記事を読む ↗

元記事を読む ↗