Dataset LLMs & Texto Dados & Embeddings

scholarweave/arxiv-latex

Dataset com 1 – 10 milhões de exemplos — 4.0 mil downloads no Hugging Face. arXiv LaTeX Source Dataset This dataset provides the entire corpus of arXiv's LaTeX source files, pre-parsed, formatted, and aligned with official met…

Hugging Face · Datasets ·scholarweave · 25 de janeiro de 2026 ·↓ 4007 ·♥ 23

O dataset scholarweave/arxiv-latex está entre os destaques do Hugging Face — dados que alimentam o treinamento e a avaliação dos modelos do momento.

Ficha do dataset

Tamanho: 1 – 10 milhões de exemplos
Tarefas: geração de texto, embeddings
Idiomas: inglês
Licença: proprietária / outra
Downloads: 4.0 mil · Curtidas: 23

Sobre o dataset

arXiv LaTeX Source Dataset This dataset provides the entire corpus of arXiv's LaTeX source files, pre-parsed, formatted, and aligned with official metadata in ready-to-query Parquet files.

Como carregar

Use a biblioteca datasets do Hugging Face:

pip install -U datasets

Como é um dataset grande, vale carregar em modo streaming (sem baixar tudo):

from datasets import load_dataset

ds = load_dataset("scholarweave/arxiv-latex", split="train", streaming=True)
for exemplo in ds.take(3):
    print(exemplo)

scholarweave/arxiv-latex

Ficha do dataset

Sobre o dataset

Como carregar

Tags

Leia também

Meddies/meddies-persona-vie

SoftBank’s CEO isn’t the only one with questions about Elon Musk’s orbital data center hype

Anthropic's Fable 5 could return within days as Trump administration prepares to lift restrictions

Apple Vision Pro exec is reportedly leaving for OpenAI