Jalapeño: a OpenAI projeta seu primeiro chip de inferência — e usou IA para fazer isso em 9 meses
Em parceria com a Broadcom, a OpenAI revelou seu primeiro processador dedicado a LLMs — um ASIC de inferência em TSMC 3nm com oito stacks de HBM, desenhado em tempo recorde com ajuda dos próprios modelos da empresa.
Desde que ficou claro que rodar modelos de linguagem de grande porte é fundamentalmente diferente de treiná-los, a corrida por hardware especializado em inferência ganhou velocidade. Google tem seus TPUs. Microsoft tem a Maia. Amazon tem o Trainium. Qualcomm, Intel e uma dezena de startups estão na fila. A NVIDIA, que domina o lado do treinamento, também segura posição relevante em inferência — mas é uma posição que cada vez mais empresas acham caro demais para aceitar sem alternativa.
A OpenAI revelou ontem o Jalapeño, seu primeiro chip de inferência próprio, desenvolvido em parceria com a Broadcom. O produto não é um conceito nem uma previsão de roadmap: engenheiros já testam amostras em laboratório rodando o GPT-5.3‑Codex‑Spark em frequência e consumo de produção. O prazo do tape-out — a versão final enviada para fabricação — foi de apenas nove meses, um cronograma incomum para ASICs de silício avançado.
O que torna o Jalapeño diferente de uma GPU de inferência
GPUs como a H100 e a B200 da NVIDIA são processadores de propósito geral para computação paralela massiva. Elas foram otimizadas para treinamento — matrizes enormes de multiplicações de ponto flutuante — e adaptadas para inferência por tabela. O Jalapeño foi projetado ao contrário: partindo dos gargalos reais de inferência de LLMs em escala.
O principal problema de inferência não é poder de computação bruta — é movimento de dados. Durante a geração de tokens, o modelo precisa mover os pesos entre memória e processadores a cada passo. Quanto maior o modelo e mais longa a janela de contexto, mais essa operação domina o custo. O Jalapeño redesenha a hierarquia de memória e computação para reduzir esse movimento, aproximando a utilização realizada do pico teórico — uma métrica que em GPUs convencionais frequentemente fica abaixo de 50% em cargas de inferência típicas.
O chip usa o nó TSMC 3nm e inclui oito stacks de HBM (High Bandwidth Memory) — a mesma tecnologia de memória de alta largura de banda usada em GPUs de ponta, mas configurada especificamente para o padrão de acesso de decoders autorregressivos. É um ASIC de tamanho reticle — o maior que o processo de fabricação permite — o que maximiza a capacidade por chip ao custo de exigir yields de produção mais precisos.
- Processo: TSMC 3nm, tamanho reticle (máximo por processo)
- Memória: oito stacks de HBM — largura de banda otimizada para inferência autorregressiva
- Desenvolvimento: tape-out em 9 meses, com modelos OpenAI acelerando partes do design
- Status: amostras de engenharia rodando GPT-5.3-Codex-Spark em frequência e consumo de produção
- Performance: performance por watt superior ao "estado da arte atual" (referência implícita a NVIDIA)
- Deploy: datacenters de escala gigawatt com Microsoft e outros parceiros, a partir do final de 2026
- Parceiro de fabricação: Broadcom (design e empacotamento); TSMC (fabricação)
A IA que projetou o chip que vai rodar a IA
O detalhe mais notável do Jalapeño não é o hardware em si — é como ele foi construído. A OpenAI usou seus próprios modelos para acelerar partes do ciclo de design do chip. EDA — Electronic Design Automation, o conjunto de ferramentas que traduz especificações de hardware em layouts de silício — é uma área onde modelos de linguagem demonstraram utilidade crescente: geração de HDL (Hardware Description Language), verificação de timing, exploração de alternativas de floorplan.
O resultado foi um chronograma de nove meses do início ao tape-out, tempo que para ASICs de alta complexidade em nós avançados costuma ser medido em dois a três anos. Isso não significa que o modelo fez o design sozinho — a equipe de hardware da OpenAI e a equipe de custom silicon da Broadcom conduziram o projeto. Mas a aceleração do loop de iteração compressa prazos de forma significativa.
Há uma recursividade interessante aqui: um modelo de linguagem contribuiu para o design de hardware que vai rodar modelos de linguagem mais eficientemente. Isso não é metáfora — é o processo de engenharia documentado pela empresa.
O que isso muda para a OpenAI — e para a NVIDIA
A OpenAI gasta bilhões por ano em computação de inferência. Cada token gerado para usuários do ChatGPT, do Codex ou da API tem um custo de hardware. Um chip com performance por watt substancialmente superior à NVIDIA reduz esse custo diretamente — e aumenta a margem sobre cada requisição servida.
Para a NVIDIA, o sinal é claro: o maior cliente de GPUs do mundo está construindo alternativa. Isso não significa abandono imediato — o Jalapeño vai a produção no final de 2026, e a NVIDIA segue com uma base instalada enorme e um ecossistema de software (CUDA, cuDNN, TensorRT) que nenhum ASIC novo substitui rapidamente. Mas reduz a alavancagem de preço que a NVIDIA tem sobre clientes hipescala.
O paralelo mais próximo é o que Google fez com o TPU: internalizou parte da computação, reduziu dependência de NVIDIA e desenvolveu vantagem de custo que ajuda a oferecer preços mais competitivos. A OpenAI está na mesma trajetória, com dez anos de atraso — mas também com modelos mais caros de rodar, o que torna o incentivo financeiro ainda mais agudo.
O que ainda não sabemos
A OpenAI não publicou benchmarks comparativos com números absolutos. "Performance por watt substancialmente melhor que o estado da arte" é uma afirmação que precisa de teste independente para ter peso. O relatório técnico detalhado prometido "nos próximos meses" vai determinar se os números resistem a escrutínio externo.
O prazo de "final de 2026" para deployment em escala é otimista mas plausível, dado que amostras de engenharia já existem. Deployment em escala de gigawatt é outro nível de complexidade: infraestrutura de datacenter, sistemas de resfriamento e toda a camada de software de orquestração precisam ser co-desenvolvidos.
O Jalapeño pode ser o começo de uma plataforma de múltiplas gerações — a empresa já descreveu isso como "a primeira de várias gerações" com a Broadcom. Se o modelo de co-design com IA comprimir prazos consistentemente, a cadência de lançamentos pode ser mais agressiva do que o histórico de chips customizados de outros players sugeriria.
Perguntas Frequentes
O que é um ASIC?
Application-Specific Integrated Circuit — um chip projetado para um propósito específico, em contraste com GPUs e CPUs de propósito geral. ASICs são tipicamente mais eficientes para a tarefa alvo (menos watt por operação, menos silício desperdiçado em lógica irrelevante), mas custam mais para desenvolver e não são reutilizáveis para outras cargas de trabalho.
O que é HBM e por que importa para inferência?
High Bandwidth Memory — memória empilhada verticalmente sobre o processador, com largura de banda muito superior à DRAM convencional. Em inferência de LLMs, o gargalo principal é mover os pesos do modelo da memória para os núcleos de computação a cada passo de geração. Mais HBM significa menos espera nessa operação.
A OpenAI vai parar de comprar GPUs da NVIDIA?
Provavelmente não no curto prazo. O Jalapeño é otimizado para inferência; treinamento de modelos ainda depende de arquiteturas de GPU convencionais. E a base instalada de infraestrutura existente não é substituída do dia para a noite. A tendência é uso misto: GPUs para treinamento, ASICs próprios para inferência em produção.
O que é tape-out?
O ponto em que o design de um chip é finalizado e enviado para a fábrica de semicondutores para produção. É o marco que separa o design (software, simulação) da fabricação física (silício). Depois do tape-out, erros de design não podem ser corrigidos sem um novo ciclo completo.