Dataset
LLMs & Texto
wikimedia/wikipedia
Dataset com menos de mil exemplos — 194.8 mil downloads no Hugging Face. Dataset Card for Wikimedia Wikipedia Dataset Summary Wikipedia dataset containing cleaned articles of all languages.
Hugging Face · Datasets
·wikimedia
·
·↓ 194822
·♥ 1262
O dataset wikimedia/wikipedia está entre os destaques do Hugging Face — dados que alimentam o treinamento e a avaliação dos modelos do momento.
Ficha do dataset
- Tamanho: menos de mil exemplos
- Tarefas: geração de texto, fill mask
- Idiomas: ab, ace, ady, af, alt, am, …
- Licença: CC-BY-SA-3.0
- Downloads: 194.8 mil · Curtidas: 1.3 mil
Sobre o dataset
Dataset Card for Wikimedia Wikipedia Dataset Summary Wikipedia dataset containing cleaned articles of all languages.
Como carregar
Use a biblioteca datasets do Hugging Face:
pip install -U datasets
from datasets import load_dataset
ds = load_dataset("wikimedia/wikipedia")
print(ds)
print(ds["train"][0])Tags
text-generation fill-mask
// relacionados
Leia também
Editorial
GPT-5.6 Sol vai rodar a 750 tokens por segundo na Cerebras — e a OpenAI reclama do próprio acordo com o governo
Editorial
A NVIDIA colou um "gêmeo" de difusão num LLM pronto — e ele ficou 2,42x mais rápido
Blog
AI private schools sell wealthy US families on personalized learning over traditional education
Blog