Dataset LLMs & Texto

lmsys/lmsys-chat-1m

Dataset com 1 – 10 milhões de exemplos — 6.1 mil downloads no Hugging Face. LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset This dataset contains one million real-world conversations with 25 state-of-the-art L…

Hugging Face · Datasets ·lmsys · ·↓ 6067 ·♥ 931

O dataset lmsys/lmsys-chat-1m está entre os destaques do Hugging Face — dados que alimentam o treinamento e a avaliação dos modelos do momento.

Ficha do dataset

  • Tamanho: 1 – 10 milhões de exemplos
  • Tarefas: conversational
  • Downloads: 6.1 mil · Curtidas: 931

Sobre o dataset

LMSYS-Chat-1M: A Large-Scale Real-World LLM Conversation Dataset This dataset contains one million real-world conversations with 25 state-of-the-art LLMs.

Como carregar

Use a biblioteca datasets do Hugging Face:

pip install -U datasets

Como é um dataset grande, vale carregar em modo streaming (sem baixar tudo):

from datasets import load_dataset

ds = load_dataset("lmsys/lmsys-chat-1m", split="train", streaming=True)
for exemplo in ds.take(3):
    print(exemplo)

Tags

conversational

Explorar o dataset no Hugging Face →

compartilhar: