热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
AI 编码代理能否重现已发布的社会科学发现?
在与 @_mohsen_m、Fabrizio Gilardi 和 @j_a_tucker 的新合作中,我们推出了 SocSci-Repro-Bench——一个包含 54 篇论文的 221 个可重现性任务的基准,并评估了两个前沿编码代理:Claude Code 和 Codex。
结果揭示了 AI 辅助科学的显著能力和新风险。
------------------------------------
GOAL
--------
一个关键设计目标是区分两个不同的问题:
1️⃣ 复制材料本身是否可重现?
2️⃣ 当材料可执行时,AI 代理能否重现结果?
为了隔离代理性能,我们仅包括输出在三次独立手动执行中完全相同的任务。
------------------------------------
DESIGN
--------
代理接收:
• 匿名数据 + 代码
• 一个沙盒执行环境
他们必须自主:
• 安装依赖
• 调试损坏的代码
• 执行管道
• 提取请求的结果
简而言之:端到端的计算重现。
------------------------------------
RESULTS...

热门
排行
收藏
