Dataset LLMs & Texto

CodeDevX/Vibe-Coding-Instruct

Dataset com 1 – 10 milhões de exemplos — 2.3 mil downloads no Hugging Face.

Hugging Face · Datasets ·CodeDevX · 18 de janeiro de 2026 ·↓ 2299 ·♥ 169

O dataset CodeDevX/Vibe-Coding-Instruct está entre os destaques do Hugging Face — dados que alimentam o treinamento e a avaliação dos modelos do momento.

Ficha do dataset

Tamanho: 1 – 10 milhões de exemplos
Tarefas: geração de texto
Idiomas: inglês
Licença: Apache 2.0
Downloads: 2.3 mil · Curtidas: 169

Como carregar

Use a biblioteca datasets do Hugging Face:

pip install -U datasets

Como é um dataset grande, vale carregar em modo streaming (sem baixar tudo):

from datasets import load_dataset

ds = load_dataset("CodeDevX/Vibe-Coding-Instruct", split="train", streaming=True)
for exemplo in ds.take(3):
    print(exemplo)

CodeDevX/Vibe-Coding-Instruct

Ficha do dataset

Como carregar

Tags

Leia também

The US military used AI to pick thousands of targets but missed a note saying one was a school

HP accelerates enterprise workflows with OpenAI Frontier

O fantasma do Fable 5: banido, o modelo vive nos datasets que o destilam

MultiHashFormer: e se cada palavra fosse uma impressão digital?