言語モデルはプログラムをゼロから再構築できるか? ProgramBenchの登場
ProgramBenchは、言語モデルがコンパイル済みの実行ファイルとドキュメントのみからプログラムを再実装できるかを評価するベンチマークです。
200のタスクがあり、jqやripgrepといった小型ユーティリティからPHPコンパイラ、FFmpeg、SQLiteといった大規模ソフトウェアプロジェクトまでをカバーしています。
現状、Claude OpusやGPTなどの大規模言語モデルでも、タスクを完全に解決することは難しく、テストケースの合格率は低い結果となっています。
不正行為を防ぐための厳格な制限が設けられており、モデルは完全に独自の設計でプログラムを構築する必要があります。
原文の冒頭を表示(英語・3段落のみ)
Can language models rebuild programs from scratch?
Given only a compiled binary and its documentation, agents must architect and implement
a complete codebase that reproduces the original program's behavior.
※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。