AI 编码代理能否重现已发布的社会科学发现? 在与 @_mohsen_m、Fabrizio Gilardi 和 @j_a_tucker 的新合作中,我们推出了 SocSci-Repro-Bench——一个包含 54 篇论文的 221 个可重现性任务的基准,并评估了两个前沿编码代理:Claude Code 和 Codex。 结果揭示了 AI 辅助科学的显著能力和新风险。 ------------------------------------ GOAL -------- 一个关键设计目标是区分两个不同的问题: 1️⃣ 复制材料本身是否可重现? 2️⃣ 当材料可执行时,AI 代理能否重现结果? 为了隔离代理性能,我们仅包括输出在三次独立手动执行中完全相同的任务。 ------------------------------------ DESIGN -------- 代理接收: • 匿名数据 + 代码 • 一个沙盒执行环境 他们必须自主: • 安装依赖 • 调试损坏的代码 • 执行管道 • 提取请求的结果 简而言之:端到端的计算重现。 ------------------------------------ RESULTS...