Les agents de codage AI peuvent-ils reproduire des résultats publiés en sciences sociales ? Dans un nouveau travail avec @_mohsen_m, Fabrizio Gilardi et @j_a_tucker, nous introduisons SocSci-Repro-Bench — un benchmark de 221 tâches de reproductibilité provenant de 54 articles — et évaluons deux agents de codage de pointe : Claude Code et Codex. Les résultats révèlent à la fois des capacités remarquables et de nouveaux risques pour la science assistée par l'IA. ------------------------------------ GOAL -------- Un objectif clé de conception était de séparer deux problèmes différents : 1️⃣ Les matériaux de réplication eux-mêmes sont-ils reproductibles ? 2️⃣ Les agents AI peuvent-ils reproduire des résultats lorsque les matériaux sont exécutables ? Pour isoler la performance des agents, nous avons uniquement inclus des tâches dont les résultats étaient identiques lors de trois exécutions manuelles indépendantes. ------------------------------------ DESIGN -------- Les agents ont reçu : • des données anonymisées + du code • un environnement d'exécution en bac à sable Ils devaient de manière autonome : • installer des dépendances • déboguer le code défectueux • exécuter le pipeline • extraire les résultats demandés En résumé : reproduction computationnelle de bout en bout. ------------------------------------ RESULTATS...