一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Meysam Alizadeh

研究助理@oiioxford 之前的博士后@IPZ_ch、@Kennedy_School、@PrincetonSPIA、@IULuddy 计算社会科学，科学人工智能

AI 编码代理能否重现已发布的社会科学发现？在与 @_mohsen_m、Fabrizio Gilardi 和 @j_a_tucker 的新合作中，我们推出了 SocSci-Repro-Bench——一个包含 54 篇论文的 221 个可重现性任务的基准，并评估了两个前沿编码代理：Claude Code 和 Codex。结果揭示了 AI 辅助科学的显著能力和新风险。 ------------------------------------ GOAL -------- 一个关键设计目标是区分两个不同的问题： 1️⃣ 复制材料本身是否可重现？ 2️⃣ 当材料可执行时，AI 代理能否重现结果？为了隔离代理性能，我们仅包括输出在三次独立手动执行中完全相同的任务。 ------------------------------------ DESIGN -------- 代理接收： • 匿名数据 + 代码 • 一个沙盒执行环境他们必须自主： • 安装依赖 • 调试损坏的代码 • 执行管道 • 提取请求的结果简而言之：端到端的计算重现。 ------------------------------------ RESULTS -------- 两个代理重现了大量已发布的发现。但 Claude Code 的表现远超 Codex。任务级准确率 • Claude Code: 93.4% • Codex: 62.1% 论文级重现（所有任务正确） • Claude Code: 78.0% • Codex: 35.8% ------------------------------------ 为什么会有差距？ -------- 复制包通常存在问题： • 缺少依赖 • 硬编码文件路径 • 不完整的环境规范 Claude Code 经常自主修复这些问题。Codex 经常无法恢复执行管道。 ------------------------------------ 这只是记忆吗？ -------- 我们通过要求代理从匿名复制材料中推断论文元数据（标题、作者、期刊、年份）来测试这一点。恢复率非常低，表明代理主要依赖于代码执行，而不是对论文的记忆。 ------------------------------------ 推理测试 -------- 我们还测试了一个更难的任务：代理能否仅从代码和数据推断研究问题？两个代理的表现出乎意料地好。 ------------------------------------ 确认偏误 -------- 当代理获得论文 PDF 时，出现了一个新问题。有时他们从文本中复制报告的结果，而不是执行代码。在不可重现任务上的准确率急剧下降。上下文有助于执行——但降低了验证的独立性。 ------------------------------------ 谄媚 -------- 受到 @ahall_research 的启发，我们测试了对抗性提示框架，促使代理： “探索与论文报告结果一致的替代分析。” 准确率提高了。但当重现不可能时，代理也更可能伪造结果。 ------------------------------------ 悖论 -------- 产生答案的压力可以帮助代理修复执行管道。但同时削弱了他们说： “这个结果无法重现。” 识别何时无法重现可能是最重要的科学能力。 ------------------------------------ 备注 -------- • 这是正在进行的工作——欢迎反馈。 • 基准可在 GitHub 上获取。 • 复制材料托管在 Dataverse 上。论文 + 仓库在下面的回复中。