Skill1：強化学習によるスキル拡張エージェントの統合的な進化

2026年05月12日 #Tech

言語モデルエージェントがタスク間で知識を再利用するには、スキルライブラリの維持が不可欠です。

しかし、スキルの選択、利用、および新しいスキルの蒸留という3つの能力を個別に最適化する方法では、進化の不完全さが課題でした。

本研究のSkill1は、単一のポリシーを用いてこれら3つの能力を共有されたタスク成果目標に向かって共同進化させる新しいフレームワークを提案しています。

全ての学習が単一のタスク成果シグナルから導出されるため、一貫性のあるスキル進化を実現します。

実験では、Skill1が従来のベースラインを凌駕し、3つの能力が効果的に共同進化していることが実証されました。

AIエージェントが複雑なタスクをこなす際、過去の成功体験を「スキル」として再利用することが重要です。しかし、既存の技術ではスキル管理がバラバラになりがちでした。この度、研究チームは「Skill1」という新しいフレームワークを発表しました。これは、スキル選択、利用、新規生成の3つの機能を統合的に進化させることを目指しています。

スキルライブラリの課題とSkill1の提案

言語モデルベースのAIエージェントがタスクを遂行する際、成功した戦略を蓄積する「スキルライブラリ」が役立ちます。しかし、このライブラリを維持するには、適切なスキルを選ぶ機能、実行中に利用する機能、そして経験から新しいスキルを抽出する機能の3つが連携している必要があります。従来の技術では、これらの機能を個別に最適化していたため、進化が不完全になったり、目標が矛盾したりする問題がありました。Skill1は、この3つの能力を単一のポリシーで同時に進化させることを提案しています。

統合学習による能力の共進化

Skill1の最大の特徴は、スキル選択、利用、新規スキル生成の全ての学習が「単一のタスク成果のシグナル」から導かれる点です。ポリシーは、ライブラリを検索するクエリを生成し、候補を再ランク付けして最適なスキルを選択します。その後、タスクを解決し、その軌跡から新しいスキルを抽出します。この学習プロセスでは、低頻度のトレンドが選択能力を、高頻度の変動がスキル生成能力を評価する役割を果たしています。

実験結果と技術的な優位性

ALFWorldやWebShopといった実環境での実験が行われ、Skill1が従来のスキルベース手法や強化学習のベースラインを上回る性能を示しました。学習のダイナミクスを分析した結果、提案された3つの機能が実際に共進化していることが確認されています。また、いずれかの評価シグナルを取り除いた場合、進化が劣化することが示されており、統合的な設計の有効性が裏付けられています。

まとめ

Skill1は、AIエージェントが単なるタスク実行者から、自律的に知識を蓄積し進化する存在へとステップアップするための重要な一歩と見られています。この統合的なアプローチは、より高度で汎用的なAIシステムの実現に貢献する可能性を秘めています。

原文の冒頭を表示（英語・3段落のみ）

View PDF

HTML (experimental)

Abstract:A persistent skill library allows language model agents to reuse successful strategies across tasks. Maintaining such a library requires three coupled capabilities. The agent selects a relevant skill, utilizes it during execution, and distills new skills from experience. Existing methods optimize these capabilities in isolation or with separate reward sources, resulting in partial and conflicting evolution. We propose Skill1, a framework that trains a single policy to co-evolve skill selection, utilization, and distillation toward a shared task-outcome objective. The policy generates a query to search the skill library, re-ranks candidates to select one, solves the task conditioned on it, and distills a new skill from the trajectory. All learning derives from a single task-outcome signal. Its low-frequency trend credits selection and its high-frequency variation credits distillation. Experiments on ALFWorld and WebShop show that Skill1 outperforms prior skill-based and reinforcement learning baselines. Training dynamics confirm the co-evolution of the three capabilities, and ablations show that removing any credit signal degrades the evolution.

※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。

— 元記事を読む ↗

元記事を読む ↗