Terminal-Bench 3.0 開発開始:AIエージェントの新たなベンチマーク
Terminal-Bench 3.0 が開発を開始しました。
このバージョンでは、ソフトウェアエンジニアリング、システム管理、セキュリティ、科学計算に加え、より幅広い分野を対象とし、解決率が最大30%に抑えられた難易度の高いタスクを導入します。
開発チームは、現実のコンピュータ作業を模倣し、明確な指示と堅牢な検証を持つタスクの貢献者を募集しており、特に専門知識を必要とする長期的かつ複雑なタスクを推奨しています。
詳細な貢献方法や週次ミーティングの情報はGitHubとDiscordで公開されています。
AIエージェントの能力を測るための新しいベンチマーク「Terminal-Bench 3.0」が開発段階に入ったと発表されました。これは、AIがコマンドライン操作を通じて実行できる、より高度で専門的なタスク群を収集・検証する試みです。従来のモデルでは解決が難しい、真に難易度の高い課題設定が目指されています。
難易度を追求したタスク設計
Terminal-Bench 3.0の目標は、リリース時点の最高性能モデルでも30%以下しか解決できない、多様なタスクを100個用意することです。単なる知識問題ではなく、より長い時間軸(マルチデイなど)を要したり、マイクロサービスやデータベースを含む複雑な環境を必要とする、高度な問題設定が特徴です。これにより、AIエージェントの真の能力を測ることを目指しています。
ドメインの拡大と貢献の呼びかけ
前バージョン(2.0)では、ソフトウェアエンジニアリングやセキュリティ、科学計算といった分野をカバーしていましたが、3.0ではさらに幅広い領域への拡張を図っています。コマンドラインを通じて実行可能で、プログラム的に検証可能な「現実的で価値のある挑戦的なコンピュータータスク」であれば対象となります。開発チームは、このベンチマーク構築に外部からの貢献者を募集しています。
タスク作成と検証のプロセス
タスクの作成には、単に難しいだけでなく、「人間が報酬を支払って行うような実務的なコンピューター作業」であること、そして「明確な指示と堅牢な検証方法」があることが求められます。貢献者は、タスク提案の評価基準を確認し、自身の専門分野でアイデアを定義した後、GitHubやDiscordを通じて承認を得て実装を進める流れとなります。
貢献者へのインセンティブ
最先端のベンチマーク構築は難易度が高いため、たとえ一つでもタスクが採用された貢献者には、最終リリースで言及されることになります。貢献者(個人・組織)は、データセットに採用されたタスク数に応じて順位付けされる仕組みです。開発チームは、GitHubやDiscordで具体的な議論の場を設けています。
まとめ
Terminal-Bench 3.0は、AIエージェントが単なる指示応答から脱却し、複雑な実務を遂行できるかという「次世代のフロンティア」を測る重要な試みです。専門知識を持つ開発者や研究者からの積極的な参加が期待されています。
原文の冒頭を表示(英語・3段落のみ)
We're excited to announce that Terminal-Bench 3.0 is now in active development — the next version of Terminal-Bench.
Our goal for Terminal-Bench 3.0 is 100 diverse tasks targeting at most 30% solve rate from the best models at release. We want tasks that are genuinely difficult — longer-horizon, richer environments, and requiring specialized expertise.
Terminal-Bench 2.0 covered software engineering, sys-admin, security, and scientific computing. For Terminal-Bench 3.0, we're expanding to an even wider variety of domains. Any realistic, valuable, and challenging computer task that can be accomplished via the command line and programmatically verified is fair game.
※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。