Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Meysam Alizadeh
Investigador Associado @oiioxford
Pós-doutoramento anterior @IPZ_ch, @Kennedy_School, @PrincetonSPIA, @IULuddy
Ciências Sociais Computacionais, IA para Ciência
Os agentes de codificação de IA podem reproduzir descobertas publicadas em ciências sociais?
Em um novo trabalho com @_mohsen_m, Fabrizio Gilardi e @j_a_tucker, apresentamos o SocSci-Repro-Bench — um benchmark de 221 tarefas de reprodutibilidade de 54 artigos — e avaliamos dois agentes de codificação de ponta: Claude Code e Codex.
Os resultados revelam tanto capacidades notáveis quanto novos riscos para a ciência assistida por IA.
------------------------------------
GOAL
--------
Um objetivo de design chave foi separar dois problemas diferentes:
1️⃣ Os materiais de replicação são eles mesmos reprodutíveis?
2️⃣ Os agentes de IA podem reproduzir resultados quando os materiais são executáveis?
Para isolar o desempenho do agente, incluímos apenas tarefas cujos resultados eram idênticos em três execuções manuais independentes.
------------------------------------
DESIGN
--------
Os agentes receberam:
• dados + código anonimizados
• um ambiente de execução isolado
Eles tiveram que autonomamente:
• instalar dependências
• depurar código quebrado
• executar o pipeline
• extrair os resultados solicitados
Em resumo: reprodução computacional de ponta a ponta.
------------------------------------
RESULTADOS
--------
Ambos os agentes reproduziram uma grande parte das descobertas publicadas.
Mas Claude Code superou substancialmente o Codex.
Precisão a nível de tarefa
• Claude Code: 93,4%
• Codex: 62,1%
Reprodução a nível de artigo (todas as tarefas corretas)
• Claude Code: 78,0%
• Codex: 35,8%
------------------------------------
POR QUE A DIFERENÇA?
--------
Pacotes de replicação frequentemente contêm problemas:
• dependências ausentes
• caminhos de arquivo codificados
• especificações de ambiente incompletas
Claude Code frequentemente reparou esses problemas autonomamente. Codex frequentemente falhou em recuperar o pipeline de execução.
------------------------------------
É APENAS MEMORIZAÇÃO?
--------
Testamos isso pedindo aos agentes que inferissem os metadados do artigo (título, autores, jornal, ano) a partir de materiais de replicação anonimizados. As taxas de recuperação foram muito baixas, sugerindo que os agentes se basearam principalmente na execução de código, não na memorização de artigos.
------------------------------------
TESTE DE RAZOAMENTO
--------
Também testamos uma tarefa mais difícil:
Os agentes podem inferir a questão de pesquisa de um estudo apenas a partir de código e dados?
Ambos os agentes se saíram surpreendentemente bem.
------------------------------------
BIASES DE CONFIRMAÇÃO
--------
Quando os agentes receberam o PDF do artigo, um novo problema surgiu. Às vezes, eles copiavam os resultados relatados do texto em vez de executar o código.
A precisão em tarefas não reprodutíveis caiu drasticamente.
O contexto ajuda na execução — mas reduz a independência da verificação.
------------------------------------
SYCOPHANCY
--------
Inspirados por @ahall_research, testamos a formulação de prompts adversariais, incentivando os agentes a:
"explorar análises alternativas que se alinhem com os resultados relatados do artigo."
A precisão aumentou.
Mas os agentes também se tornaram mais propensos a fabricar resultados quando a reprodução era impossível.
------------------------------------
O PARADOXO
--------
A pressão para produzir uma resposta pode ajudar os agentes a reparar pipelines de execução.
Mas ao mesmo tempo, erode sua capacidade de dizer:
"Este resultado não pode ser reproduzido."
Reconhecer quando a reprodução é impossível pode ser a capacidade científica mais importante.
------------------------------------
NOTAS
--------
• Este é um trabalho em progresso — feedback é bem-vindo.
• Benchmark disponível no GitHub.
• Materiais de replicação hospedados no Dataverse.
Artigo + repositório na resposta abaixo.

93
Top
Classificação
Favoritos
