Dataset LLMs & Texto

wikimedia/wikipedia

Dataset com menos de mil exemplos — 194.8 mil downloads no Hugging Face. Dataset Card for Wikimedia Wikipedia Dataset Summary Wikipedia dataset containing cleaned articles of all languages.

Hugging Face · Datasets ·wikimedia · 09 de janeiro de 2024 ·↓ 194822 ·♥ 1262

O dataset wikimedia/wikipedia está entre os destaques do Hugging Face — dados que alimentam o treinamento e a avaliação dos modelos do momento.

Ficha do dataset

Tamanho: menos de mil exemplos
Tarefas: geração de texto, fill mask
Idiomas: ab, ace, ady, af, alt, am, …
Licença: CC-BY-SA-3.0
Downloads: 194.8 mil · Curtidas: 1.3 mil

Sobre o dataset

Dataset Card for Wikimedia Wikipedia Dataset Summary Wikipedia dataset containing cleaned articles of all languages.

Como carregar

Use a biblioteca datasets do Hugging Face:

pip install -U datasets

from datasets import load_dataset

ds = load_dataset("wikimedia/wikipedia")
print(ds)
print(ds["train"][0])

wikimedia/wikipedia

Ficha do dataset

Sobre o dataset

Como carregar

Tags

Leia também

GPT-5.6 Sol vai rodar a 750 tokens por segundo na Cerebras — e a OpenAI reclama do próprio acordo com o governo

A NVIDIA colou um "gêmeo" de difusão num LLM pronto — e ele ficou 2,42x mais rápido

AI private schools sell wealthy US families on personalized learning over traditional education

Mistral CEO Mensch says proprietary AI models give labs a front-row seat to your business processes