Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Pueden los agentes de codificación de IA reproducir hallazgos publicados en ciencias sociales?
En un nuevo trabajo con @_mohsen_m, Fabrizio Gilardi y @j_a_tucker, presentamos SocSci-Repro-Bench — un benchmark de 221 tareas de reproducibilidad de 54 artículos — y evaluamos dos agentes de codificación de frontera: Claude Code y Codex.
Los resultados revelan tanto capacidades notables como nuevos riesgos para la ciencia asistida por IA.
------------------------------------
OBJETIVO
--------
Un objetivo clave de diseño era separar dos problemas diferentes:
1️⃣ ¿Son reproducibles los materiales de replicación en sí mismos?
2️⃣ ¿Pueden los agentes de IA reproducir resultados cuando los materiales son ejecutables?
Para aislar el rendimiento del agente, solo incluimos tareas cuyos resultados eran idénticos en tres ejecuciones manuales independientes.
------------------------------------
DISEÑO
--------
Agentes recibidos:
• datos anonimizados + código
• un entorno de ejecución en formato sandbox
Tenían que hacerlo de forma autónoma:
• Dependencias de instalación
• depurar código roto
• ejecutar la tubería
• extraer los resultados solicitados
En resumen: reproducción computacional de extremo a extremo.
------------------------------------
RESULTADOS...

Populares
Ranking
Favoritas
