Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Les agents de codage AI peuvent-ils reproduire des résultats publiés en sciences sociales ?
Dans un nouveau travail avec @_mohsen_m, Fabrizio Gilardi et @j_a_tucker, nous introduisons SocSci-Repro-Bench — un benchmark de 221 tâches de reproductibilité provenant de 54 articles — et évaluons deux agents de codage de pointe : Claude Code et Codex.
Les résultats révèlent à la fois des capacités remarquables et de nouveaux risques pour la science assistée par l'IA.
------------------------------------
GOAL
--------
Un objectif clé de conception était de séparer deux problèmes différents :
1️⃣ Les matériaux de réplication eux-mêmes sont-ils reproductibles ?
2️⃣ Les agents AI peuvent-ils reproduire des résultats lorsque les matériaux sont exécutables ?
Pour isoler la performance des agents, nous avons uniquement inclus des tâches dont les résultats étaient identiques lors de trois exécutions manuelles indépendantes.
------------------------------------
DESIGN
--------
Les agents ont reçu :
• des données anonymisées + du code
• un environnement d'exécution en bac à sable
Ils devaient de manière autonome :
• installer des dépendances
• déboguer le code défectueux
• exécuter le pipeline
• extraire les résultats demandés
En résumé : reproduction computationnelle de bout en bout.
------------------------------------
RESULTATS...

Meilleurs
Classement
Favoris
