Quantização: Rodar LLMs no Seu Computador
Se você já abriu o Hugging Face e viu modelos com sufixos como Q4_K_M ou GGUF, encontrou a quantização sem saber. É a técnica que encolheu modelos gigantes a ponto de eles rodarem em hardware de gente comum.
O que é quantização
Os pesos de um modelo são números. Por padrão, cada um ocupa 16 ou 32 bits. Quantizar é representar esses números com menos bits — 8, 4, às vezes menos. Menos bits significam menos memória e menos cálculo, ao custo de uma pequena perda de precisão.
A analogia: é como salvar uma foto com mais compressão. O arquivo fica muito menor; a maioria das pessoas não nota a diferença na tela.
- FP16: precisão cheia, máxima qualidade, máximo consumo de memória.
- Q8: metade do tamanho, perda quase imperceptível.
- Q4: um quarto do tamanho — o ponto doce para rodar local.
- Regra prática: um modelo de 7B em Q4 pede ~5 GB de RAM/VRAM.
GGUF e llama.cpp
O formato GGUF e o projeto llama.cpp são a espinha dorsal da IA local. Eles rodam modelos quantizados de forma eficiente até em CPU, e alimentam aplicativos populares como Ollama e LM Studio, que escondem a complexidade atrás de uma interface simples.
Por que rodar local
- Privacidade: seus dados não saem da máquina.
- Custo: zero por requisição, sem mensalidade de API.
- Offline: funciona sem internet.
- Controle: você escolhe o modelo, a versão e os parâmetros.
O preço a pagar
Modelos locais quantizados raramente batem os maiores modelos de nuvem em tarefas difíceis. Há perda de qualidade, a velocidade depende do seu hardware e a configuração ainda exige alguma curiosidade técnica. Para muitos casos — resumo, rascunho, classificação, brainstorming — a diferença é irrelevante e a autonomia compensa.
Perguntas Frequentes
Preciso de uma GPU cara?
Ajuda muito, mas não é obrigatória. Modelos pequenos quantizados rodam em CPU e até em notebooks com chip Apple Silicon, que tem memória unificada generosa.
Quanta qualidade se perde com Q4?
Pouca, na prática, para a maioria das tarefas. Q4_K_M é considerado um excelente equilíbrio entre tamanho e qualidade. Só em raciocínio muito exigente a perda começa a aparecer.
Qual modelo escolher para começar?
Um modelo de 7B a 8B em Q4 é o ponto de partida clássico: roda na maioria das máquinas e já resolve muita coisa. Daí você sobe de tamanho conforme o hardware permitir.
Acompanhe LLMs & Texto no radar
Veja os papers, modelos e datasets de LLMs & Texto em alta agora no Hugging Face.
Abrir radar de LLMs & Texto