Terminal-Bench 3.0 開発開始:AIエージェントの新たなベンチマーク

terminal-bench-47993106

Terminal-Bench 3.0 が開発を開始しました。このバージョンでは、ソフトウェアエンジニアリング、システム管理、セキュリティ、科学計算に加え、より幅広い分野を対象とし、解決率が最大30%に抑えられた難易度の高いタスクを導入します。開発チームは、現実のコンピュータ作業を模倣し、明確な指示と堅牢な検証を持つタスクの貢献者を募集しており、特に専門知識を必要とする長期的かつ複雑なタスクを推奨しています。詳細な貢献方法や週次ミーティングの情報はGitHubとDiscordで公開されています。

Original article

トップへ戻る