Os agentes de codificação de IA podem reproduzir descobertas publicadas em ciências sociais? Em um novo trabalho com @_mohsen_m, Fabrizio Gilardi e @j_a_tucker, apresentamos o SocSci-Repro-Bench — um benchmark de 221 tarefas de reprodutibilidade de 54 artigos — e avaliamos dois agentes de codificação de ponta: Claude Code e Codex. Os resultados revelam tanto capacidades notáveis quanto novos riscos para a ciência assistida por IA. ------------------------------------ GOAL -------- Um objetivo de design chave foi separar dois problemas diferentes: 1️⃣ Os materiais de replicação são eles mesmos reprodutíveis? 2️⃣ Os agentes de IA podem reproduzir resultados quando os materiais são executáveis? Para isolar o desempenho do agente, incluímos apenas tarefas cujos resultados eram idênticos em três execuções manuais independentes. ------------------------------------ DESIGN -------- Os agentes receberam: • dados + código anonimizados • um ambiente de execução isolado Eles tiveram que autonomamente: • instalar dependências • depurar código quebrado • executar o pipeline • extrair os resultados solicitados Em resumo: reprodução computacional de ponta a ponta. ------------------------------------ RESULTADOS...