Dataset LLMs & Texto

wikimedia/wikipedia

Dataset com menos de mil exemplos — 194.8 mil downloads no Hugging Face. Dataset Card for Wikimedia Wikipedia Dataset Summary Wikipedia dataset containing cleaned articles of all languages.

Hugging Face · Datasets ·wikimedia · ·↓ 194822 ·♥ 1262

O dataset wikimedia/wikipedia está entre os destaques do Hugging Face — dados que alimentam o treinamento e a avaliação dos modelos do momento.

Ficha do dataset

  • Tamanho: menos de mil exemplos
  • Tarefas: geração de texto, fill mask
  • Idiomas: ab, ace, ady, af, alt, am, …
  • Licença: CC-BY-SA-3.0
  • Downloads: 194.8 mil · Curtidas: 1.3 mil

Sobre o dataset

Dataset Card for Wikimedia Wikipedia Dataset Summary Wikipedia dataset containing cleaned articles of all languages.

Como carregar

Use a biblioteca datasets do Hugging Face:

pip install -U datasets

from datasets import load_dataset

ds = load_dataset("wikimedia/wikipedia")
print(ds)
print(ds["train"][0])

Tags

text-generation fill-mask

Explorar o dataset no Hugging Face →

compartilhar: