ProgramBench:评估语言模型重建程序的能力

#Tech

ProgramBench 是一个新基准测试,用于评估语言模型从头开始重建程序的能力。

模型需要仅根据可执行文件和文档重新实现程序,且不得访问源代码、使用互联网或进行反编译。

该基准包含 200 个任务,涵盖了从小型工具到大型软件项目,并使用超过 24.8 万个行为测试来验证模型生成的程序。

目前,包括 Anthropic 的 Claude Opus 和 OpenAI 的 GPT 模型在内的各种模型在 ProgramBench 上的表现都较低,表明从零开始构建程序仍然是一项极具挑战性的任务。

查看原文开头(英文 · 仅前 3 段)

Can language models rebuild programs from scratch?

Given only a compiled binary and its documentation, agents must architect and implement

a complete codebase that reproduces the original program's behavior.

※ 出于版权考虑,仅引用前 3 段。完整内容请阅读原文。

阅读原文 ↗