Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Meysam Alizadeh
Onderzoeksmedewerker @oiioxford
Vorige postdoc @IPZ_ch, @Kennedy_School, @PrincetonSPIA, @IULuddy
Computationele Sociale Wetenschappen, AI voor Wetenschap
Kunnen AI-coderingsagenten gepubliceerde bevindingen uit de sociale wetenschappen reproduceren?
In nieuw werk met @_mohsen_m, Fabrizio Gilardi en @j_a_tucker, introduceren we SocSci-Repro-Bench — een benchmark van 221 reproduceerbaarheidstaken uit 54 artikelen — en evalueren we twee geavanceerde coderingsagenten: Claude Code en Codex.
De resultaten onthullen zowel opmerkelijke mogelijkheden als nieuwe risico's voor AI-ondersteunde wetenschap.
------------------------------------
GOAL
--------
Een belangrijk ontwerpgdoel was het scheiden van twee verschillende problemen:
1️⃣ Zijn de replicatiematerialen zelf reproduceerbaar?
2️⃣ Kunnen AI-agenten resultaten reproduceren wanneer materialen uitvoerbaar zijn?
Om de prestaties van de agent te isoleren, hebben we alleen taken opgenomen waarvan de uitkomsten identiek waren bij drie onafhankelijke handmatige uitvoeringen.
------------------------------------
ONTWERP
--------
Agenten ontvingen:
• geanonimiseerde gegevens + code
• een sandboxed uitvoeringsomgeving
Ze moesten autonoom:
• afhankelijkheden installeren
• gebroken code debuggen
• de pipeline uitvoeren
• de gevraagde resultaten extraheren
Kortom: end-to-end computationele reproductie.
------------------------------------
RESULTATEN
--------
Beide agenten reproduceerden een groot deel van de gepubliceerde bevindingen.
Maar Claude Code presteerde aanzienlijk beter dan Codex.
Taakniveau nauwkeurigheid
• Claude Code: 93,4%
• Codex: 62,1%
Paperniveau reproductie (alle taken correct)
• Claude Code: 78,0%
• Codex: 35,8%
------------------------------------
WAAROM DE KLOOF?
--------
Replicatiepakketten bevatten vaak problemen:
• ontbrekende afhankelijkheden
• hard-coded bestandslocaties
• onvolledige omgevingsspecificaties
Claude Code repareerde deze problemen vaak autonoom. Codex faalde vaak om de uitvoeringspipeline te herstellen.
------------------------------------
IS DIT GEWOON GEHEUGEN?
--------
We testten dit door agenten te vragen om papermetadata (titel, auteurs, tijdschrift, jaar) af te leiden uit geanonimiseerde replicatiematerialen. Herstelpercentages waren erg laag, wat suggereert dat agenten voornamelijk vertrouwden op code-uitvoering, niet op het memoriseren van artikelen.
------------------------------------
REDENERINGSTEST
--------
We testten ook een moeilijkere taak:
Kunnen agenten de onderzoeksvraag van een studie afleiden uit alleen code en gegevens?
Beide agenten presteerden verrassend goed.
------------------------------------
BEVESTIGINGSVOOROORDEEL
--------
Wanneer agenten de paper PDF kregen, ontstond er een nieuw probleem. Soms kopieerden ze gerapporteerde resultaten uit de tekst in plaats van de code uit te voeren.
De nauwkeurigheid op niet-reproduceerbare taken daalde scherp.
Context helpt bij de uitvoering — maar vermindert de onafhankelijkheid van verificatie.
------------------------------------
SYCOPHANTIE
--------
Geïnspireerd door @ahall_research, testten we vijandige promptvorming, waarbij we agenten aanmoedigden om:
"alternatieve analyses te verkennen die overeenkomen met de gerapporteerde resultaten van de paper."
De nauwkeurigheid nam toe.
Maar agenten werden ook waarschijnlijker om resultaten te fabriceren wanneer reproductie onmogelijk was.
------------------------------------
DE PARADOX
--------
Druk om een antwoord te produceren kan agenten helpen om uitvoeringspipelines te repareren.
Maar het ondermijnt tegelijkertijd hun vermogen om te zeggen:
"Dit resultaat kan niet worden gereproduceerd."
Erkennen wanneer reproductie onmogelijk is, kan de belangrijkste wetenschappelijke vaardigheid zijn.
------------------------------------
NOTITIES
--------
• Dit is een werk in uitvoering — feedback is welkom.
• Benchmark beschikbaar op GitHub.
• Replicatiematerialen gehost op Dataverse.
Paper + repository in de reactie hieronder.

76
Boven
Positie
Favorieten
