Blog
LLMs & Texto
GPT e Claude falharam nos testes financeiros da Bridgewater porque as respostas corretas nunca foram públicas
A Bridgewater e a Thinking Machines Lab — a startup da ex-CTO da OpenAI, Mira Murati — fizeram o fine-tuning de um modelo Qwen3-235B para tarefas financeiras. De acordo com os próprios testes delas, o modelo atinge 84,7 por cento de acurácia, superando Gemini, Claude e GPT a cerca de um quatorze avos do custo. Os números não foram verificados por ninguém de fora das duas empresas, no entanto. O artigo GPT e Claude falharam nos testes financeiros da Bridgewater porque as respostas corretas nunca foram públicas apareceu primeiro no The Decoder...
The Decoder
·Maximilian Schreiner
·
// relacionados
Leia também
Blog
O complicado problema do Claude Code com a China envolve proibições dos dois lados do Pacífico
Blog
AI Security Institute do Reino Unido descobre que benchmarks padrão subestimam sistematicamente o que agentes de IA realmente conseguem fazer
Dataset
ByteDance-Seed/EdgeBench
Blog