artigo · LLMs & Texto

Quantização: Rodar LLMs no Seu Computador

Há poucos anos, rodar um bom modelo de linguagem exigia uma fazenda de GPUs. Hoje cabe num notebook — e o truque que tornou isso possível se chama quantização.

Se você já abriu o Hugging Face e viu modelos com sufixos como Q4_K_M ou GGUF, encontrou a quantização sem saber. É a técnica que encolheu modelos gigantes a ponto de eles rodarem em hardware de gente comum.

O que é quantização

Os pesos de um modelo são números. Por padrão, cada um ocupa 16 ou 32 bits. Quantizar é representar esses números com menos bits — 8, 4, às vezes menos. Menos bits significam menos memória e menos cálculo, ao custo de uma pequena perda de precisão.

A analogia: é como salvar uma foto com mais compressão. O arquivo fica muito menor; a maioria das pessoas não nota a diferença na tela.

FP16: precisão cheia, máxima qualidade, máximo consumo de memória.
Q8: metade do tamanho, perda quase imperceptível.
Q4: um quarto do tamanho — o ponto doce para rodar local.
Regra prática: um modelo de 7B em Q4 pede ~5 GB de RAM/VRAM.

GGUF e llama.cpp

O formato GGUF e o projeto llama.cpp são a espinha dorsal da IA local. Eles rodam modelos quantizados de forma eficiente até em CPU, e alimentam aplicativos populares como Ollama e LM Studio, que escondem a complexidade atrás de uma interface simples.

Por que rodar local

Privacidade: seus dados não saem da máquina.
Custo: zero por requisição, sem mensalidade de API.
Offline: funciona sem internet.
Controle: você escolhe o modelo, a versão e os parâmetros.

O preço a pagar

Modelos locais quantizados raramente batem os maiores modelos de nuvem em tarefas difíceis. Há perda de qualidade, a velocidade depende do seu hardware e a configuração ainda exige alguma curiosidade técnica. Para muitos casos — resumo, rascunho, classificação, brainstorming — a diferença é irrelevante e a autonomia compensa.

Perguntas Frequentes

Preciso de uma GPU cara?

Ajuda muito, mas não é obrigatória. Modelos pequenos quantizados rodam em CPU e até em notebooks com chip Apple Silicon, que tem memória unificada generosa.

Quanta qualidade se perde com Q4?

Pouca, na prática, para a maioria das tarefas. Q4_K_M é considerado um excelente equilíbrio entre tamanho e qualidade. Só em raciocínio muito exigente a perda começa a aparecer.

Qual modelo escolher para começar?

Um modelo de 7B a 8B em Q4 é o ponto de partida clássico: roda na maioria das máquinas e já resolve muita coisa. Daí você sobe de tamanho conforme o hardware permitir.

← voltar para o guia completo

Acompanhe LLMs & Texto no radar

Veja os papers, modelos e datasets de LLMs & Texto em alta agora no Hugging Face.

Abrir radar de LLMs & Texto