scholarweave/arxiv-latex
Dataset com 1 – 10 milhões de exemplos — 4.0 mil downloads no Hugging Face. arXiv LaTeX Source Dataset This dataset provides the entire corpus of arXiv's LaTeX source files, pre-parsed, formatted, and aligned with official met…
O dataset scholarweave/arxiv-latex está entre os destaques do Hugging Face — dados que alimentam o treinamento e a avaliação dos modelos do momento.
Ficha do dataset
- Tamanho: 1 – 10 milhões de exemplos
- Tarefas: geração de texto, embeddings
- Idiomas: inglês
- Licença: proprietária / outra
- Downloads: 4.0 mil · Curtidas: 23
Sobre o dataset
arXiv LaTeX Source Dataset This dataset provides the entire corpus of arXiv's LaTeX source files, pre-parsed, formatted, and aligned with official metadata in ready-to-query Parquet files.
Como carregar
Use a biblioteca datasets do Hugging Face:
pip install -U datasets
Como é um dataset grande, vale carregar em modo streaming (sem baixar tudo):
from datasets import load_dataset
ds = load_dataset("scholarweave/arxiv-latex", split="train", streaming=True)
for exemplo in ds.take(3):
print(exemplo)Tags
text-generation feature-extraction science arxiv latex academic