跳轉至主要內容
行情
掃鏈
策略
追蹤
追蹤聰明錢地址,實時監控動態
跟單
探索鏈上交易,一鍵跟單獲取收益
信號
關注聰明錢信號,發現早期機會
兌換
資產
邀請計劃
OnchainOS
開發者中心
文檔
API Key 管理
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
區塊鏈瀏覽器
更多
DeFi
市場
安全中心
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
DEX 功能
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
返回
自動翻譯代幣名稱
自動翻譯 X 內容
懸停顯示代幣卡片
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-5.07%
USELESS
-7.75%
IKUN
-11.61%
gib
-3.68%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-4.6%
ALON
-6.97%
LAUNCHCOIN
+0.54%
GOONC
-6.3%
KLED
-15.78%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.01%
Boopa
-7.34%
PORK
0.00%
主頁
Meysam Alizadeh
研究助理@oiioxford 之前博士後@IPZ_ch、@Kennedy_School、@PrincetonSPIA、@IULuddy 計算社會科學,科學人工智慧
查看原文
Meysam Alizadeh
13 小時前
AI 編碼代理能否重現已發表的社會科學研究結果? 在與 @_mohsen_m、Fabrizio Gilardi 和 @j_a_tucker 的新合作中,我們介紹了 SocSci-Repro-Bench — 一個包含 54 篇論文的 221 個可重現性任務的基準,並評估了兩個前沿編碼代理:Claude Code 和 Codex。 結果顯示,AI 輔助科學既有顯著的能力,也帶來了新的風險。 ------------------------------------ GOAL -------- 一個關鍵的設計目標是區分兩個不同的問題: 1️⃣ 複製材料本身是否可重現? 2️⃣ 當材料可執行時,AI 代理能否重現結果? 為了隔離代理的表現,我們僅包括在三次獨立手動執行中輸出相同的任務。 ------------------------------------ DESIGN -------- 代理接收: • 匿名數據 + 代碼 • 一個沙盒執行環境 他們必須自主: • 安裝依賴項 • 調試損壞的代碼 • 執行管道 • 提取請求的結果 簡而言之:端到端的計算重現。 ------------------------------------ RESULTS -------- 兩個代理重現了大量已發表的研究結果。 但 Claude Code 的表現顯著優於 Codex。 任務級準確率 • Claude Code: 93.4% • Codex: 62.1% 論文級重現(所有任務正確) • Claude Code: 78.0% • Codex: 35.8% ------------------------------------ 為什麼會有差距? -------- 複製包通常存在問題: • 缺少依賴項 • 硬編碼的文件路徑 • 不完整的環境規範 Claude Code 經常自主修復這些問題。Codex 則經常無法恢復執行管道。 ------------------------------------ 這只是記憶嗎? -------- 我們通過要求代理從匿名複製材料中推斷論文元數據(標題、作者、期刊、年份)來測試這一點。恢復率非常低,這表明代理主要依賴於代碼執行,而不是對論文的記憶。 ------------------------------------ 推理測試 -------- 我們還測試了一個更難的任務: 代理能否僅從代碼和數據推斷研究問題? 兩個代理的表現都出乎意料地好。 ------------------------------------ 確認偏誤 -------- 當代理獲得論文 PDF 時,出現了一個新問題。有時他們從文本中複製報告的結果,而不是執行代碼。 在不可重現的任務上的準確率急劇下降。 上下文有助於執行 — 但降低了驗證的獨立性。 ------------------------------------ 諂媚 -------- 受到 @ahall_research 的啟發,我們測試了對抗性提示框架,促使代理: “探索與論文報告結果一致的替代分析。” 準確率提高了。 但當重現不可能時,代理也更有可能捏造結果。 ------------------------------------ 悖論 -------- 產生答案的壓力可以幫助代理修復執行管道。 但同時也侵蝕了他們說: “這個結果無法重現。” 識別何時無法重現可能是最重要的科學能力。 ------------------------------------ 備註 -------- • 這是進行中的工作 — 歡迎反饋。 • 基準可在 GitHub 上獲得。 • 複製材料托管在 Dataverse 上。 論文 + 存儲庫在下面的回覆中。
103
熱門
排行
收藏