Dataset LLMs & Texto

nvidia/Nemotron-Personas-USA

Dataset com 1 – 10 milhões de exemplos — 13.7 mil downloads no Hugging Face. Nemotron-Personas-USA A compound AI approach to personas grounded in real-world distributions v1.

Hugging Face · Datasets ·nvidia · 16 de janeiro de 2025 ·↓ 13682 ·♥ 332

O dataset nvidia/Nemotron-Personas-USA está entre os destaques do Hugging Face — dados que alimentam o treinamento e a avaliação dos modelos do momento.

Ficha do dataset

Tamanho: 1 – 10 milhões de exemplos
Tarefas: geração de texto
Idiomas: inglês
Licença: CC BY 4.0
Downloads: 13.7 mil · Curtidas: 332

Sobre o dataset

Nemotron-Personas-USA A compound AI approach to personas grounded in real-world distributions v1.

Como carregar

Use a biblioteca datasets do Hugging Face:

pip install -U datasets

Como é um dataset grande, vale carregar em modo streaming (sem baixar tudo):

from datasets import load_dataset

ds = load_dataset("nvidia/Nemotron-Personas-USA", split="train", streaming=True)
for exemplo in ds.take(3):
    print(exemplo)

nvidia/Nemotron-Personas-USA

Ficha do dataset

Sobre o dataset

Como carregar

Tags

Leia também

Fable 5 volta ao ar depois de 19 dias banido — e a indústria propõe um "CVSS" para jailbreaks

OpenAI cofounder envisions "almost no interface" future where nobody learns software anymore

A 26,000-student study shows AI's hidden learning cost takes two full years to surface

Anthropic launches its own drug discovery programs to tackle diseases Big Pharma considers unprofitable