Editorial Multimodal

MiniMax M3: o modelo multimodal open-weight que opera por 24 horas sem parar

Com 428 bilhões de parâmetros, contexto de 1 milhão de tokens e suporte nativo a imagem e vídeo, o M3 demonstrou otimizar kernels de GPU por 24 horas contínuas — elevando a utilização de 7,6% para 71,3%.

Ponto Zero · 22 de janeiro de 2026

Em junho de 2026, um modelo rodando autonomamente por 24 horas estudou a utilização de uma GPU, identificou os gargalos, escreveu código de otimização, testou, revisou e entregou uma melhora de 7,6% para 71,3% na utilização do hardware — um ganho de quase dez vezes. O modelo era o MiniMax M3, da startup xangaiense MiniMax, e a demonstração foi publicada como prova de conceito de IA agêntica de longo horizonte.

Não é o único dado que chama atenção no M3. O modelo combina, pela primeira vez em pesos abertos, três características que costumam aparecer separadas: codificação de fronteira (59,0 no SWE-bench Pro), contexto de 1 milhão de tokens e multimodalidade nativa para texto, imagem e vídeo. E faz isso com uma arquitetura de atenção que, segundo os próprios benchmarks internos, é 15 vezes mais rápida que o predecessor ao decodificar em contextos longos.

MiniMax Sparse Attention: o que muda na prática

O problema clássico de atenção em transformers é a complexidade quadrática: dobrar o tamanho do contexto quadruplica o custo computacional. Isso torna contextos de 1 milhão de tokens proibitivos com atenção densa padrão. A maioria dos modelos contorna o problema com compressão de KV-cache, atenção por janela deslizante ou destilação de tokens. O MiniMax M3 usa uma abordagem diferente: MiniMax Sparse Attention (MSA).

O MSA mantém os key-values não comprimidos — sem perda de informação — e calcula um índice leve que identifica quais blocos do passado são relevantes para o token atual. A operação de busca lê cada bloco apenas uma vez, com acesso contíguo de memória, o que favorece as GPUs modernas. O resultado prático: 9 vezes mais rápido no prefill e 15 vezes mais rápido no decode em comparação com o M2.7, para contextos de 1 milhão de tokens. A velocidade de saída sustentada fica em torno de 100 tokens por segundo.

Para efeito de comparação, o próprio paper afirma que o MSA é mais de quatro vezes mais rápido que implementações de Flash-Sparse-Attention existentes — o benchmark de eficiência de atenção esparsa mais citado na literatura.

Multimodal desde o primeiro passo de treinamento

A maioria dos modelos multimodais é, na verdade, um LLM com um módulo de visão adicionado depois: o modelo de linguagem é treinado primeiro em texto, e a capacidade de processar imagens é inserida em seguida por adaptadores ou fine-tuning. O M3 tomou outra direção: treinamento multimodal desde o início, com sequências onde texto e imagens aparecem intercalados de forma natural, em cerca de 100 trilhões de tokens.

A diferença não é apenas teórica. Modelos que recebem visão como pós-treinamento tendem a tratar a imagem como um anexo — algo a ser descrito e depois ignorado. Modelos treinados de forma nativa integram texto e imagem como partes da mesma representação. O M3 processa texto, imagens (entrada), vídeo (entrada) e operação de computador desktop — computer use — como modalidades de primeira classe.

      Parâmetros: ~428 bilhões totais, ~23 bilhões ativos por token (MoE)
Contexto: até 1 milhão de tokens (garantido a partir de 512 mil)
Speedup vs. M2.7: 9× prefill, 15× decode em 1M tokens
SWE-bench Pro: 59,0% (acima de GPT-5.5 e Gemini 3.1 Pro)
BrowseComp: 83,5 (Claude Opus 4.7 tem 79,3)
OSWorld Verified: 70,06% — uso de computador autônomo
Custo API: ~$0,30 por milhão de tokens (com cache: ~$0,06)
Pré-treinamento: ~100 trilhões de tokens

    

O que os benchmarks dizem — e o que não dizem

O SWE-bench Pro do M3 (59,0%) fica acima do GPT-5.5 e do Gemini 3.1 Pro, mas abaixo do Opus 4.7 e do GLM-5.2. No BrowseComp — tarefa de navegação web em busca de informações difíceis de encontrar —, o M3 chega a 83,5, enquanto o Opus 4.7 marca 79,3. Já no PostTrainBench, que avalia alinhamento e instrução-following após fine-tuning, o M3 fica abaixo do Opus.

O padrão que emerge: o M3 é especialmente forte em tarefas que dependem de contexto longo e navegação autônoma. Em tarefas que exigem raciocínio complexo e encadeado sem ferramenta — o tipo que o Opus 4.7 domina —, a vantagem desaparece ou se inverte. Isso é consistente com a escolha de arquitetura: o MSA foi otimizado para eficiência em contexto longo, não para profundidade de raciocínio.

Agência de longo horizonte: a promessa e o limite

A demonstração mais citada no lançamento do M3 foi a otimização de kernel de GPU por 24 horas: o modelo rodou em modo agêntico, escrevendo e testando código continuamente até levar a utilização do hardware de 7,6% para 71,3%. Uma segunda demonstração envolveu reprodução de um paper científico em 12 horas — 18 commits, 23 figuras geradas.

Essas demonstrações revelam algo importante: o ganho de contexto longo não é sobre ler documentos longos, mas sobre manter coerência em sessões longas de trabalho. Um agente que precisa "lembrar" de decisões tomadas seis horas atrás — por que escolheu um determinado algoritmo, quais abordagens já falhou —, sem contexto longo, é forçado a recomeçar ou resumir, perdendo nuances. Com 1 milhão de tokens de janela, o histórico da sessão cabe inteiro.

O limite é a confiança cega nessas demonstrações. Elas são exemplos curados pelo próprio laboratório — não auditorias independentes. O desempenho em tarefas reais de engenharia, com bases de código legadas, requisitos ambíguos e testes inadequados, pode ser bem diferente.

Três modos de raciocínio: custo vs. profundidade

O M3 oferece três configurações de raciocínio via parâmetro thinking. No modo enabled, o modelo ativa raciocínio encadeado (chain-of-thought) para toda resposta. No modo adaptive, o modelo decide autonomamente quando o raciocínio adicional é benéfico — economizando custo em perguntas diretas. No modo disabled, o raciocínio é suprimido para minimizar latência.

A escolha de expor esse controle explicitamente é inteligente: em aplicações de produção, a maioria das consultas não justifica raciocínio longo, e o custo de sempre ativar o thinking pode tornar a API cara. O modo adaptive é o ponto de equilíbrio para quem não quer gerenciar isso manualmente.

Disponibilidade e licença

O M3 foi lançado em 1 de junho de 2026 via API da MiniMax, com pesos no Hugging Face chegando cerca de dez dias depois. A licença segue o padrão do M2.7: open-weight, mas não totalmente open-source — uso comercial em escala pode exigir autorização por escrito da MiniMax. A distinção importa: os pesos estão disponíveis para uso, mas a empresa mantém controle sobre casos de uso de grande escala.

O preço da API, a ~$0,30 por milhão de tokens de entrada, posiciona o M3 abaixo do GPT-5.5 e do Gemini 3.1 Pro, competindo diretamente com o DeepSeek V4-Flash no segmento de modelos de fronteira com custo controlado. Com prompt caching, o custo cai para aproximadamente $0,06 por milhão — relevante para aplicações com contextos que se repetem.

Perguntas Frequentes

O MiniMax M3 processa vídeo de entrada — o que isso significa na prática?

O modelo recebe clipes de vídeo como parte da janela de contexto e pode raciocinar sobre o conteúdo visual ao longo do tempo — entender sequências de ações, identificar objetos em movimento, relacionar frames. Isso o diferencia de modelos que processam apenas frames estáticos. Casos de uso incluem análise de gravações de tela, revisão de vídeos de treinamento e monitoramento de sistemas em tempo real.

O que é computer use nativo no M3?

Computer use é a capacidade de um modelo controlar uma interface gráfica de computador — mover o cursor, clicar, digitar, abrir aplicativos — como um humano faria. No M3, isso é uma modalidade de primeira classe: o modelo foi treinado para entender capturas de tela de desktop e gerar sequências de ações, não apenas descrever o que vê. É a base para agentes de automação de tarefas que não dependem de APIs.

A janela de 1 milhão de tokens é garantida ou apenas suportada?

A MiniMax garante desempenho a partir de 512 mil tokens. Contextos de 512 mil a 1 milhão estão disponíveis em serviço prioritário. A distinção é comum: suportar 1 milhão de tokens tecnicamente não é o mesmo que garantir a mesma qualidade de atenção em toda essa janela. Para a maioria das aplicações, 512 mil tokens já é mais do que suficiente.

Por que o M3 é mais barato que os concorrentes de mesmo nível?

A eficiência do MSA reduz o custo computacional de inferência, especialmente em contextos longos. Com 23 bilhões de parâmetros ativos por token — não os 428 bilhões totais —, o custo por token é próximo ao de um modelo denso de 23B, não de 428B. MoE bem implementado é a principal alavanca para democratizar acesso a modelos de fronteira.

// relacionados