Dataset LLMs & Texto

Qwen/AgentWorldBench

Dataset em destaque no Hugging Face — 87 downloads. AgentWorldBench AgentWorldBench is a comprehensive evaluation benchmark for language world models, constructed from real-world observations of frontie…

Hugging Face · Datasets ·Qwen · 24 de janeiro de 2026 ·↓ 87 ·♥ 18

O dataset Qwen/AgentWorldBench está entre os destaques do Hugging Face — dados que alimentam o treinamento e a avaliação dos modelos do momento.

87 downloads
18 curtidas

Sobre o dataset

AgentWorldBench AgentWorldBench is a comprehensive evaluation benchmark for language world models, constructed from real-world observations of frontier model trajectories on established benchmarks such as Tool Decathlon, Terminal-Bench 1.

text-generation world-model agent benchmark evaluation environment-simulation qwen

Explorar o dataset no Hugging Face →

Ver no Hugging Face

// relacionados

Qwen/AgentWorldBench

Sobre o dataset

Leia também

Europe is pushing back on Washington’s chip war

Comfy-Org/Krea-2

Cerebras stock plunges after earnings as CEO says margin outlook was misunderstood

OpenAI and Broadcom announce chip designed for LLM inference at scale