跳转至主要内容
行情
扫链
策略
追踪
追踪聪明钱地址,实时监控动态
跟单
探索链上交易,一键跟单获取收益
信号
关注聪明钱信号,发现早期机会
兑换
资产
邀请计划
OnchainOS
开发者中心
文档
API Key 管理
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
区块链浏览器
更多
DeFi
市场
安全中心
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
DEX 功能
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
返回
自动翻译代币名称
自动翻译 X 内容
悬停显示代币卡片
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-5.07%
USELESS
-7.66%
IKUN
-11.61%
gib
-3.68%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-4.59%
ALON
-6.97%
LAUNCHCOIN
+0.54%
GOONC
-6.3%
KLED
-15.78%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.01%
Boopa
-7.34%
PORK
0.00%
主页
Meysam Alizadeh
研究助理@oiioxford 之前的博士后@IPZ_ch、@Kennedy_School、@PrincetonSPIA、@IULuddy 计算社会科学,科学人工智能
查看原文
Meysam Alizadeh
13 小时前
AI 编码代理能否重现已发布的社会科学发现? 在与 @_mohsen_m、Fabrizio Gilardi 和 @j_a_tucker 的新合作中,我们推出了 SocSci-Repro-Bench——一个包含 54 篇论文的 221 个可重现性任务的基准,并评估了两个前沿编码代理:Claude Code 和 Codex。 结果揭示了 AI 辅助科学的显著能力和新风险。 ------------------------------------ GOAL -------- 一个关键设计目标是区分两个不同的问题: 1️⃣ 复制材料本身是否可重现? 2️⃣ 当材料可执行时,AI 代理能否重现结果? 为了隔离代理性能,我们仅包括输出在三次独立手动执行中完全相同的任务。 ------------------------------------ DESIGN -------- 代理接收: • 匿名数据 + 代码 • 一个沙盒执行环境 他们必须自主: • 安装依赖 • 调试损坏的代码 • 执行管道 • 提取请求的结果 简而言之:端到端的计算重现。 ------------------------------------ RESULTS -------- 两个代理重现了大量已发布的发现。 但 Claude Code 的表现远超 Codex。 任务级准确率 • Claude Code: 93.4% • Codex: 62.1% 论文级重现(所有任务正确) • Claude Code: 78.0% • Codex: 35.8% ------------------------------------ 为什么会有差距? -------- 复制包通常存在问题: • 缺少依赖 • 硬编码文件路径 • 不完整的环境规范 Claude Code 经常自主修复这些问题。Codex 经常无法恢复执行管道。 ------------------------------------ 这只是记忆吗? -------- 我们通过要求代理从匿名复制材料中推断论文元数据(标题、作者、期刊、年份)来测试这一点。恢复率非常低,表明代理主要依赖于代码执行,而不是对论文的记忆。 ------------------------------------ 推理测试 -------- 我们还测试了一个更难的任务: 代理能否仅从代码和数据推断研究问题? 两个代理的表现出乎意料地好。 ------------------------------------ 确认偏误 -------- 当代理获得论文 PDF 时,出现了一个新问题。有时他们从文本中复制报告的结果,而不是执行代码。 在不可重现任务上的准确率急剧下降。 上下文有助于执行——但降低了验证的独立性。 ------------------------------------ 谄媚 -------- 受到 @ahall_research 的启发,我们测试了对抗性提示框架,促使代理: “探索与论文报告结果一致的替代分析。” 准确率提高了。 但当重现不可能时,代理也更可能伪造结果。 ------------------------------------ 悖论 -------- 产生答案的压力可以帮助代理修复执行管道。 但同时削弱了他们说: “这个结果无法重现。” 识别何时无法重现可能是最重要的科学能力。 ------------------------------------ 备注 -------- • 这是正在进行的工作——欢迎反馈。 • 基准可在 GitHub 上获取。 • 复制材料托管在 Dataverse 上。 论文 + 仓库在下面的回复中。
102
热门
排行
收藏