Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kunnen AI-coderingsagenten gepubliceerde bevindingen uit de sociale wetenschappen reproduceren?
In nieuw werk met @_mohsen_m, Fabrizio Gilardi en @j_a_tucker, introduceren we SocSci-Repro-Bench — een benchmark van 221 reproduceerbaarheidstaken uit 54 artikelen — en evalueren we twee geavanceerde coderingsagenten: Claude Code en Codex.
De resultaten onthullen zowel opmerkelijke mogelijkheden als nieuwe risico's voor AI-ondersteunde wetenschap.
------------------------------------
GOAL
--------
Een belangrijk ontwerpgdoel was het scheiden van twee verschillende problemen:
1️⃣ Zijn de replicatiematerialen zelf reproduceerbaar?
2️⃣ Kunnen AI-agenten resultaten reproduceren wanneer materialen uitvoerbaar zijn?
Om de prestaties van de agent te isoleren, hebben we alleen taken opgenomen waarvan de uitkomsten identiek waren bij drie onafhankelijke handmatige uitvoeringen.
------------------------------------
ONTWERP
--------
Agenten ontvingen:
• geanonimiseerde gegevens + code
• een sandboxed uitvoeringsomgeving
Ze moesten autonoom:
• afhankelijkheden installeren
• gebroken code debuggen
• de pipeline uitvoeren
• de gevraagde resultaten extraheren
Kortom: end-to-end computationele reproductie.
------------------------------------
RESULTATEN...

Boven
Positie
Favorieten
