Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

¿Pueden los agentes de codificación de IA reproducir hallazgos publicados en ciencias sociales? En un nuevo trabajo con @_mohsen_m, Fabrizio Gilardi y @j_a_tucker, presentamos SocSci-Repro-Bench — un benchmark de 221 tareas de reproducibilidad de 54 artículos — y evaluamos dos agentes de codificación de frontera: Claude Code y Codex. Los resultados revelan tanto capacidades notables como nuevos riesgos para la ciencia asistida por IA. ------------------------------------ OBJETIVO -------- Un objetivo clave de diseño era separar dos problemas diferentes: 1️⃣ ¿Son reproducibles los materiales de replicación en sí mismos? 2️⃣ ¿Pueden los agentes de IA reproducir resultados cuando los materiales son ejecutables? Para aislar el rendimiento del agente, solo incluimos tareas cuyos resultados eran idénticos en tres ejecuciones manuales independientes. ------------------------------------ DISEÑO -------- Agentes recibidos: • datos anonimizados + código • un entorno de ejecución en formato sandbox Tenían que hacerlo de forma autónoma: • Dependencias de instalación • depurar código roto • ejecutar la tubería • extraer los resultados solicitados En resumen: reproducción computacional de extremo a extremo. ------------------------------------ RESULTADOS...

Populares

Ranking

Favoritas