一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

AI 编码代理能否重现已发布的社会科学发现？在与 @_mohsen_m、Fabrizio Gilardi 和 @j_a_tucker 的新合作中，我们推出了 SocSci-Repro-Bench——一个包含 54 篇论文的 221 个可重现性任务的基准，并评估了两个前沿编码代理：Claude Code 和 Codex。结果揭示了 AI 辅助科学的显著能力和新风险。 ------------------------------------ GOAL -------- 一个关键设计目标是区分两个不同的问题： 1️⃣ 复制材料本身是否可重现？ 2️⃣ 当材料可执行时，AI 代理能否重现结果？为了隔离代理性能，我们仅包括输出在三次独立手动执行中完全相同的任务。 ------------------------------------ DESIGN -------- 代理接收： • 匿名数据 + 代码 • 一个沙盒执行环境他们必须自主： • 安装依赖 • 调试损坏的代码 • 执行管道 • 提取请求的结果简而言之：端到端的计算重现。 ------------------------------------ RESULTS...