artigo · LLMs & Texto

Mistura de Especialistas: Modelos Gigantes que Custam Pouco

Os maiores modelos abertos de hoje anunciam trilhões de parâmetros e, no mesmo fôlego, prometem custar pouco para usar. A contradição só se resolve quando se entende uma ideia: nem todo parâmetro trabalha ao mesmo tempo.

Leia o anúncio de quase qualquer LLM aberto recente e você verá dois números lado a lado: o total de parâmetros e os "parâmetros ativos". O primeiro costuma ser dezenas de vezes maior que o segundo. Essa diferença é a arquitetura de mistura de especialistas — em inglês, mixture-of-experts, ou MoE — e ela explica por que modelos gigantescos passaram a caber em orçamentos modestos.

O problema que ela resolve

Num modelo tradicional, dito denso, todo parâmetro participa do processamento de cada token. Dobrar o tamanho dobra o custo de cada palavra gerada. É uma relação linear e cruel: mais capacidade significa, sempre, mais conta de cálculo.

O MoE quebra essa amarra. A ideia é dividir parte do modelo em muitas sub-redes especializadas — os especialistas — e, para cada token, acionar apenas algumas delas. A capacidade total cresce com o número de especialistas; o custo cresce só com quantos são usados de cada vez.

O roteador, peça central

Quem decide quais especialistas entram em ação é um pequeno componente chamado roteador (router). A cada token, ele escolhe — tipicamente — os dois ou quatro especialistas mais adequados, entre dezenas ou centenas disponíveis, e ignora o resto.

A analogia útil é a de um hospital. Você não é examinado por todos os médicos a cada queixa; a recepção encaminha ao especialista certo. O hospital pode ter centenas de profissionais no quadro — sua consulta envolve dois ou três. É assim que um modelo de um trilhão de parâmetros responde com o custo de um modelo de algumas dezenas de bilhões.

  • Parâmetros totais: a capacidade do modelo — pode chegar a trilhões.
  • Parâmetros ativos: o que de fato roda por token — uma fração, define o custo.
  • Especialistas: sub-redes; o roteador escolhe poucas por token.
  • Regra prática: a memória segue o total; a velocidade, os ativos.

A pegadinha da memória

Há um custo que o MoE não elimina. Embora só uma fração dos parâmetros calcule cada token, todos precisam estar carregados na memória — afinal, o roteador pode chamar qualquer especialista a qualquer momento. Por isso um modelo MoE de um trilhão de parâmetros é barato de executar, mas caro de hospedar: exige a memória do total, não a dos ativos.

É a razão de esses modelos serem assunto de data center, não de notebook — mesmo quando ativam poucos bilhões de parâmetros por token. A quantização ajuda a comprimir esse peso, mas não o faz desaparecer.

Por que o MoE domina os lançamentos

A corrida deixou de ser por modelos maiores e passou a ser por modelos maiores que custam menos para usar. O MoE é a resposta direta a essa pressão: oferece a capacidade de um gigante com a conta de inferência de um modelo médio. Quase todos os grandes lançamentos abertos recentes — de laboratórios chineses e ocidentais — adotam a arquitetura.

Não é mágica: treinar um MoE é mais delicado (equilibrar a carga entre especialistas é um problema por si só), e um modelo denso bem treinado ainda pode superar um MoE mal ajustado de tamanho parecido. Mas a economia na hora de usar é boa demais para ignorar — e é por isso que a sigla virou padrão nos anúncios.

Perguntas Frequentes

Um modelo MoE é mais inteligente que um denso?

Não necessariamente. Ele tende a oferecer mais capacidade por custo de inferência, mas a qualidade depende do treino, dos dados e do alinhamento. Um modelo denso bem treinado pode superar um MoE maior mal ajustado.

Por que falam em "2 de 128 especialistas"?

É a configuração do roteamento: o modelo tem 128 especialistas no total e aciona 2 por token. Os números variam, mas a lógica é sempre a mesma — muitos disponíveis, poucos usados de cada vez.

Consigo rodar um MoE gigante no meu computador?

Dificilmente. Mesmo ativando poucos parâmetros por token, o modelo inteiro precisa estar na memória. Isso exige hardware de data center; modelos MoE menores e quantizados são a alternativa viável para uso local.

Acompanhe LLMs & Texto no radar

Veja os papers, modelos e datasets de LLMs & Texto em alta agora no Hugging Face.

Abrir radar de LLMs & Texto