Mistura de Especialistas: Modelos Gigantes que Custam Pouco
Leia o anúncio de quase qualquer LLM aberto recente e você verá dois números lado a lado: o total de parâmetros e os "parâmetros ativos". O primeiro costuma ser dezenas de vezes maior que o segundo. Essa diferença é a arquitetura de mistura de especialistas — em inglês, mixture-of-experts, ou MoE — e ela explica por que modelos gigantescos passaram a caber em orçamentos modestos.
O problema que ela resolve
Num modelo tradicional, dito denso, todo parâmetro participa do processamento de cada token. Dobrar o tamanho dobra o custo de cada palavra gerada. É uma relação linear e cruel: mais capacidade significa, sempre, mais conta de cálculo.
O MoE quebra essa amarra. A ideia é dividir parte do modelo em muitas sub-redes especializadas — os especialistas — e, para cada token, acionar apenas algumas delas. A capacidade total cresce com o número de especialistas; o custo cresce só com quantos são usados de cada vez.
O roteador, peça central
Quem decide quais especialistas entram em ação é um pequeno componente chamado roteador (router). A cada token, ele escolhe — tipicamente — os dois ou quatro especialistas mais adequados, entre dezenas ou centenas disponíveis, e ignora o resto.
A analogia útil é a de um hospital. Você não é examinado por todos os médicos a cada queixa; a recepção encaminha ao especialista certo. O hospital pode ter centenas de profissionais no quadro — sua consulta envolve dois ou três. É assim que um modelo de um trilhão de parâmetros responde com o custo de um modelo de algumas dezenas de bilhões.
- Parâmetros totais: a capacidade do modelo — pode chegar a trilhões.
- Parâmetros ativos: o que de fato roda por token — uma fração, define o custo.
- Especialistas: sub-redes; o roteador escolhe poucas por token.
- Regra prática: a memória segue o total; a velocidade, os ativos.
A pegadinha da memória
Há um custo que o MoE não elimina. Embora só uma fração dos parâmetros calcule cada token, todos precisam estar carregados na memória — afinal, o roteador pode chamar qualquer especialista a qualquer momento. Por isso um modelo MoE de um trilhão de parâmetros é barato de executar, mas caro de hospedar: exige a memória do total, não a dos ativos.
É a razão de esses modelos serem assunto de data center, não de notebook — mesmo quando ativam poucos bilhões de parâmetros por token. A quantização ajuda a comprimir esse peso, mas não o faz desaparecer.
Por que o MoE domina os lançamentos
A corrida deixou de ser por modelos maiores e passou a ser por modelos maiores que custam menos para usar. O MoE é a resposta direta a essa pressão: oferece a capacidade de um gigante com a conta de inferência de um modelo médio. Quase todos os grandes lançamentos abertos recentes — de laboratórios chineses e ocidentais — adotam a arquitetura.
Não é mágica: treinar um MoE é mais delicado (equilibrar a carga entre especialistas é um problema por si só), e um modelo denso bem treinado ainda pode superar um MoE mal ajustado de tamanho parecido. Mas a economia na hora de usar é boa demais para ignorar — e é por isso que a sigla virou padrão nos anúncios.
Perguntas Frequentes
Um modelo MoE é mais inteligente que um denso?
Não necessariamente. Ele tende a oferecer mais capacidade por custo de inferência, mas a qualidade depende do treino, dos dados e do alinhamento. Um modelo denso bem treinado pode superar um MoE maior mal ajustado.
Por que falam em "2 de 128 especialistas"?
É a configuração do roteamento: o modelo tem 128 especialistas no total e aciona 2 por token. Os números variam, mas a lógica é sempre a mesma — muitos disponíveis, poucos usados de cada vez.
Consigo rodar um MoE gigante no meu computador?
Dificilmente. Mesmo ativando poucos parâmetros por token, o modelo inteiro precisa estar na memória. Isso exige hardware de data center; modelos MoE menores e quantizados são a alternativa viável para uso local.
Acompanhe LLMs & Texto no radar
Veja os papers, modelos e datasets de LLMs & Texto em alta agora no Hugging Face.
Abrir radar de LLMs & Texto