Ideogram abre os pesos do 4.0 e mira onde a difusão sempre falhou: o texto
O primeiro modelo de pesos abertos da Ideogram é um transformer de difusão de 9,3 bilhões de parâmetros que renderiza tipografia legível, aceita layout em JSON e sai em 2K — sem etapa de upscaling.
Por anos, o calcanhar de aquiles dos geradores de imagem foi a coisa mais banal: escrever. Peça um cartaz com uma frase e a difusão devolvia uma sopa de letras quase-latinas, convincente à distância e ilegível de perto. A Ideogram construiu sua reputação justamente atacando esse ponto — e agora, com o Ideogram 4.0, fez algo que não costumava fazer: abriu os pesos.
Lançado em 3 de junho, o 4.0 é o primeiro modelo de pesos abertos da empresa. Os arquivos estão no Hugging Face, em versões quantizadas nf4 e fp8, e o modelo já circula por uma dúzia de plataformas. É uma mudança de postura num segmento onde os melhores resultados costumavam ficar trancados atrás de uma API.
O que há dentro
O 4.0 é um transformer de difusão — DiT, na sigla — de 9,3 bilhões de parâmetros, treinado do zero, com 34 camadas em fluxo único e projeções compartilhadas de tokens de texto e imagem em cada camada. A tradução para o leitor: em vez de tratar texto e pixels como mundos separados que se encontram no fim, a arquitetura os mantém conversando o tempo todo, camada a camada.
A escolha mais curiosa está no codificador de texto. Em vez do par de costume, o 4.0 usa o Qwen3-VL-8B-Instruct — um modelo de visão e linguagem — e concatena os estados internos de 13 de suas camadas para alimentar o gerador. É um modelo de linguagem multimodal servindo de "leitor" para um modelo de imagem, e ajuda a explicar por que o 4.0 entende instruções compridas e detalhadas melhor do que a média.
- 9,3 bi de parâmetros, DiT de fluxo único com 34 camadas, treinado do zero.
- Saída nativa de 2K (256 a 2048 px por lado), sem pipeline de upscaling.
- Codificador de texto baseado no Qwen3-VL-8B-Instruct.
- 0,97 de acurácia em OCR de inglês no X-Omni — primeiro entre os modelos abertos em texto.
- Controle de layout por JSON: paletas de até 16 cores, caixas delimitadoras e texto tipado.
- Canal alfa nativo — recortes limpos direto da inferência.
- Designers o preferiram em 47,9% dos testes cegos de tipografia, contra 15,5% do FLUX.2.
Layout como instrução, não como sorte
A aposta mais interessante do 4.0 é o controle por JSON. O modelo foi treinado exclusivamente com legendas estruturadas — descrições em formato de dados, não em prosa solta. Na prática, isso permite especificar uma paleta de até 16 cores em hexadecimal, posicionar elementos por caixas delimitadoras e definir blocos de texto tipados com estilo. Para quem faz design — um anúncio, uma capa, um post — a diferença é grande: troca-se a loteria do "tente de novo até a IA acertar a posição" por uma especificação que o modelo respeita.
Some-se a isso o canal alfa nativo, que produz recortes com fundo transparente direto da inferência, sem a etapa habitual de remoção de fundo. São conveniências que importam menos no benchmark e mais no fluxo de trabalho real de quem produz peças visuais em volume.
Onde ele se encaixa na hierarquia
Os números pedem leitura calibrada. No DesignArena — um ranking Elo de terceiros voltado a geração com viés de design —, o 4.0 é o primeiro entre os modelos abertos e nono no geral. Ou seja: lidera o campo aberto, supera o Midjourney v8, empata com o FLUX.2 e ainda fica atrás dos sistemas proprietários de OpenAI e Google. Não é o melhor gerador do mundo; é o melhor gerador aberto, com folga em tipografia.
Essa distinção é o ponto. A renderização de texto — 0,97 de acurácia em OCR de inglês — é onde o 4.0 abre vantagem clara, e é também onde os modelos abertos historicamente mais sofriam. Para o uso prático de design, acertar a palavra escrita no cartaz vale mais do que um décimo de ponto de fidelidade estética.
A letra miúda do "aberto"
Convém não confundir pesos abertos com licença livre. O 4.0 é gratuito para uso não comercial; implantações comerciais exigem licenciamento pago. Os pesos estão disponíveis, mas o uso profissional tem dono e tem preço — uma fronteira cada vez mais comum no que se chama de "aberto" na geração de imagem. Vale ler a licença antes de colocar o modelo num produto.
Há ainda o ponto de hardware: 9,3 bilhões de parâmetros em 2K não rodam em qualquer GPU caseira sem as versões quantizadas — e quantização cobra seu preço em qualidade. "Aberto" aqui significa "auditável e instalável", não "gratuito para todo fim e leve em qualquer máquina".
O que fica
O Ideogram 4.0 não promete destronar os modelos fechados — e faz bem em não prometer. O que ele entrega é mais específico e mais útil: o melhor texto entre os modelos que você pode baixar, com controle de layout que troca tentativa e erro por especificação. Num campo viciado em demonstrar realismo, escolher a legibilidade como bandeira é, à sua maneira, uma decisão madura.
Perguntas Frequentes
O Ideogram 4.0 é realmente aberto?
Os pesos são abertos e estão no Hugging Face, em versões quantizadas nf4 e fp8. Mas a licença é gratuita só para uso não comercial — projetos comerciais exigem licenciamento pago. É "pesos abertos", não "licença livre".
Por que ele escreve texto melhor do que outros modelos?
Por duas escolhas: um codificador de texto baseado no Qwen3-VL-8B-Instruct, que interpreta instruções longas com mais fidelidade, e treinamento com legendas estruturadas em JSON. O resultado é 0,97 de acurácia em OCR de inglês, o melhor entre os modelos abertos.
O que é o controle por JSON?
É a possibilidade de especificar a composição da imagem como dados: paleta de até 16 cores, posição de elementos por caixas delimitadoras e blocos de texto tipados. Em vez de torcer para a IA posicionar tudo certo, você descreve o layout e o modelo o segue.
Ele bate os modelos fechados?
Não. No ranking DesignArena, lidera entre os abertos e fica em nono no geral — supera o Midjourney v8, empata com o FLUX.2 e fica atrás dos sistemas proprietários de OpenAI e Google. É o melhor aberto, não o melhor absoluto.