ProgramBench：评估语言模型重建程序的能力

2026-05-06 #Tech

ProgramBench 是一个新基准测试，用于评估语言模型从头开始重建程序的能力。

模型需要仅根据可执行文件和文档重新实现程序，且不得访问源代码、使用互联网或进行反编译。

该基准包含 200 个任务，涵盖了从小型工具到大型软件项目，并使用超过 24.8 万个行为测试来验证模型生成的程序。

目前，包括 Anthropic 的 Claude Opus 和 OpenAI 的 GPT 模型在内的各种模型在 ProgramBench 上的表现都较低，表明从零开始构建程序仍然是一项极具挑战性的任务。

查看原文开头（英文 · 仅前 3 段）

Can language models rebuild programs from scratch?

Given only a compiled binary and its documentation, agents must architect and implement

a complete codebase that reproduces the original program's behavior.

※ 出于版权考虑，仅引用前 3 段。完整内容请阅读原文。

— 阅读原文 ↗

阅读原文 ↗