deepreinforce-ai/Ornith-1.0-397B-FP8
Modelo de geração de texto · 397 B de parâmetros — 2.4 mil downloads e 49 curtidas no Hugging Face.
Hugging Face · Modelos
·deepreinforce-ai
·
·↓ 2374
·♥ 49
O modelo deepreinforce-ai/Ornith-1.0-397B-FP8 aparece entre os mais comentados do Hugging Face — um termômetro do que a comunidade está realmente usando agora na tarefa de geração de texto.
Ficha técnica
- Tarefa: geração de texto
- Parâmetros: 397 B
- Biblioteca:
transformers - Formatos: safetensors
- Licença: MIT
- Downloads: 2.4 mil · Curtidas: 49
Hardware recomendado
Estimativa de VRAM só para carregar os pesos (com ~20% de folga para ativações). Contextos longos consomem memória adicional para o cache de atenção (KV cache).
- Precisão original (16-bit): ~953 GB de VRAM — cluster — ~12× GPU de 80 GB (A100/H100)
- Quantizado 8-bit: ~476 GB de VRAM — cluster — ~6× GPU de 80 GB (A100/H100)
- Quantizado 4-bit: ~238 GB de VRAM — cluster — ~3× GPU de 80 GB (A100/H100)
Como rodar localmente
Carregue com a transformers usando o template de chat:
pip install -U transformers accelerate torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "deepreinforce-ai/Ornith-1.0-397B-FP8"
tok = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id, torch_dtype="auto", device_map="auto"
)
msgs = [{"role": "user", "content": "Explique o que é entropia."}]
inputs = tok.apply_chat_template(
msgs, add_generation_prompt=True, return_tensors="pt"
).to(model.device)
out = model.generate(inputs, max_new_tokens=256)
print(tok.decode(out[0][inputs.shape[-1]:], skip_special_tokens=True))Para servir como API (recomendado para modelos grandes), use o vLLM:
pip install vllm
vllm serve deepreinforce-ai/Ornith-1.0-397B-FP8Tags
transformers safetensors qwen3_5_moe image-text-to-text text-generation conversational compressed-tensors
// relacionados
Leia também
Blog
OCRmyPDF Tutorial: Convert Scanned Documents into Searchable PDF/A Files with Sidecar Text Extraction and Batch Processing
Blog
Why Wall Street thinks US memory maker Micron is the next Nvidia
Blog
AI won't become a real coworker until it stops answering and starts finishing tasks
Blog