Blog LLMs & Texto

GPT e Claude falharam nos testes financeiros da Bridgewater porque as respostas corretas nunca foram públicas

A Bridgewater e a Thinking Machines Lab — a startup da ex-CTO da OpenAI, Mira Murati — fizeram o fine-tuning de um modelo Qwen3-235B para tarefas financeiras. De acordo com os próprios testes delas, o modelo atinge 84,7 por cento de acurácia, superando Gemini, Claude e GPT a cerca de um quatorze avos do custo. Os números não foram verificados por ninguém de fora das duas empresas, no entanto. O artigo GPT e Claude falharam nos testes financeiros da Bridgewater porque as respostas corretas nunca foram públicas apareceu primeiro no The Decoder...

The Decoder ·Maximilian Schreiner · 03 de janeiro de 2026

Ver no Hugging Face

// relacionados

GPT e Claude falharam nos testes financeiros da Bridgewater porque as respostas corretas nunca foram públicas

Leia também

O complicado problema do Claude Code com a China envolve proibições dos dois lados do Pacífico

AI Security Institute do Reino Unido descobre que benchmarks padrão subestimam sistematicamente o que agentes de IA realmente conseguem fazer

ByteDance-Seed/EdgeBench

Google DeepMind e A24 anunciam parceria de pesquisa inédita