Gli agenti di codifica AI possono riprodurre i risultati pubblicati delle scienze sociali? In un nuovo lavoro con @_mohsen_m, Fabrizio Gilardi e @j_a_tucker, introduciamo SocSci-Repro-Bench — un benchmark di 221 compiti di riproducibilità tratti da 54 articoli — e valutiamo due agenti di codifica all'avanguardia: Claude Code e Codex. I risultati rivelano sia capacità notevoli che nuovi rischi per la scienza assistita dall'AI. ------------------------------------ GOAL -------- Un obiettivo chiave del design era separare due problemi diversi: 1️⃣ I materiali di replicazione stessi sono riproducibili? 2️⃣ Gli agenti AI possono riprodurre risultati quando i materiali sono eseguibili? Per isolare le prestazioni degli agenti, abbiamo incluso solo compiti i cui output erano identici in tre esecuzioni manuali indipendenti. ------------------------------------ DESIGN -------- Gli agenti hanno ricevuto: • dati + codice anonimizzati • un ambiente di esecuzione sandboxed Dovevano autonomamente: • installare dipendenze • debugare codice rotto • eseguire la pipeline • estrarre i risultati richiesti In breve: riproduzione computazionale end-to-end. ------------------------------------ RISULTATI...