Krea 2 Turbo: o gerador de imagens aberto que fecha em 2 segundos
A Krea publicou os pesos de um modelo de 12,9 bilhões de parâmetros capaz de gerar imagens em 2K quase instantaneamente — e colocou uma licença cheia de letras miúdas junto do presente.
Pedir uma imagem a um modelo de IA costuma envolver espera: alguns segundos de barra de progresso, às vezes minutos, dependendo da fila do servidor. A Krea decidiu atacar exatamente esse ponto de atrito. Seu novo modelo, batizado Krea 2 Turbo, promete entregar uma imagem em resolução 2K — cerca de 2048 por 2048 pixels — em aproximadamente dois segundos, rodando em uma GPU de consumidor comum, não em um cluster de data center.
O detalhe que separa esse lançamento de um simples anúncio de produto é que os pesos são abertos. Qualquer pessoa pode baixar o modelo no Hugging Face, rodá-lo localmente e, dentro de certos limites, usá-lo comercialmente sem pagar royalties à Krea.
O que exatamente foi lançado
A Krea publicou duas variantes que compartilham a mesma espinha dorsal. O Krea 2 Raw é a versão base, guiada por CFG (classifier-free guidance, a técnica que ajusta o quanto a imagem deve seguir literalmente o texto do prompt), pensada para quem quer fazer fine-tuning ou treinar LoRAs — pequenos módulos de ajuste que ensinam um estilo específico ao modelo sem retreiná-lo por inteiro. O Krea 2 Turbo é a versão destilada do Raw, otimizada para gerar em apenas 8 passos de inferência, o que explica o salto de velocidade.
No Hugging Face, o Krea 2 Turbo já passa de 84 mil downloads e 478 curtidas, superando o Raw (51,8 mil downloads). Em torno dos dois modelos oficiais, a comunidade já publicou variantes independentes — incluindo conversões para ComfyUI, a interface visual em nós muito usada por quem monta pipelines de geração de imagem, e pacotes prontos para treinar LoRAs de estilo, como um treinador hospedado como Space no próprio Hugging Face.
- 12,9 bilhões de parâmetros em um Diffusion Transformer (DiT) denso — arquitetura que usa blocos de atenção do tipo transformer para "desenhar" a imagem passo a passo, em vez das redes convolucionais dos modelos de difusão mais antigos.
- 2K em ~2 segundos na variante Turbo, rodando em hardware de consumidor com apenas 8 passos de inferência.
- #1 entre laboratórios independentes no ranking de texto-para-imagem da Artificial Analysis (posição global reportada varia entre 6º e 10º lugar, dependendo da janela de avaliação).
- Licença gratuita até US$ 1 milhão de faturamento anual e até 50 assentos por empresa — acima disso, é preciso negociar uma licença Enterprise.
Como o modelo funciona por baixo do capô
A arquitetura é um DiT de fluxo único, com 28 blocos transformer em largura 6144. Em vez das camadas MLP tradicionais, o modelo usa modulação de bias por bloco — uma escolha de design que a própria Krea diz reduzir o número de parâmetros em 20% a 30% sem perder qualidade.
A leitura do texto do prompt fica a cargo do Qwen3-VL-4B-Instruct, um modelo de linguagem multimodal, combinado com um mecanismo de agregação de características em múltiplas camadas que escolhe dinamicamente representações mais grosseiras ou mais finas do texto conforme a necessidade da imagem.
O treinamento seguiu um pipeline em vários estágios: pré-treinamento progressivo (256px, depois 512px, depois 1024px), treinamento intermediário, ajuste fino supervisionado, otimização por preferência (com uma variante própria chamada STPO) e reforço com múltiplos modelos de recompensa — avaliando estética, aderência ao prompt, qualidade de texto renderizado na imagem e presença de artefatos visuais.
Por que isso importa
Velocidade não é só conveniência. Quando a geração cai de dezenas de segundos para dois, aplicações que antes precisavam de fila assíncrona — um preview em tempo real dentro de um editor, um protótipo gerado enquanto o usuário digita — passam a ser viáveis sem infraestrutura de nuvem cara. É o mesmo raciocínio que levou modelos de voz e vídeo a investir em latência baixa: a experiência muda de qualidade quando o resultado aparece antes que o usuário tire o dedo do teclado.
O fato de os pesos serem abertos também reposiciona o Krea 2 no mapa competitivo. Modelos fechados como os da OpenAI ou do Google dominam o topo dos rankings gerais, mas exigem chamadas de API pagas por imagem. Ter um modelo que compete de perto com eles — mesmo que não empate — e que pode ser baixado, ajustado e hospedado localmente muda o cálculo de custo para quem constrói produtos em cima de geração de imagem.
Onde já se vê o modelo em uso
A adoção mais visível está no próprio ecossistema Hugging Face: dezenas de LoRAs de estilo publicadas pela comunidade — nomes como retroanime, sunsetblur, vintagetarot, neondrip — mostram gente treinando variações estéticas sobre o Krea 2 Raw em questão de dias após o lançamento. Também já circulam versões quantizadas em fp8 e nvfp4, formatos que comprimem os pesos do modelo para caber em GPUs com 8 GB ou 12 GB de VRAM, tornando o Turbo rodável em placas bem mais modestas que as usadas em treinamento.
Portas para ComfyUI — a ferramenta preferida de artistas técnicos que montam pipelines customizados de geração — já apareceram na comunidade, sinal de que o modelo está sendo integrado a fluxos de trabalho reais de criação visual, não apenas testado em demos.
Limites e armadilhas
A licença é o ponto mais discutido. A Krea permite uso comercial gratuito apenas para empresas com faturamento anual abaixo de US$ 1 milhão e menos de 50 assentos — passar desse teto obriga a negociar uma licença Enterprise com a empresa. Um comentário citado em discussões no Hugging Face resumiu o desconforto de parte da comunidade: "o modelo foi morto pela licença", reação de quem esperava algo mais próximo de uma licença permissiva sem condições de receita.
A licença também exige que quem implanta o modelo — ou qualquer derivado treinado a partir dele — adote medidas de filtragem de conteúdo para impedir a geração de material ilegal ou prejudicial, uma obrigação técnica que nem toda equipe pequena tem recursos para cumprir rigorosamente.
No quesito qualidade, vale lembrar que a variante Turbo é destilada para velocidade: o processo de destilação, que comprime o conhecimento de um modelo maior e mais lento em uma versão de poucos passos, tende a sacrificar alguma nuance visual em troca da rapidez — é por isso que a Krea mantém o Raw como opção separada para quem prioriza fidelidade sobre latência. Além disso, a própria empresa reconhece publicamente posições divergentes no ranking da Artificial Analysis conforme a janela de avaliação, o que sugere cautela ao tratar qualquer posição de ranking como definitiva.
O que vem a seguir
O padrão que a Krea segue — lançar uma versão Raw para pesquisa e ajuste fino, e uma Turbo destilada para produção — já apareceu em outros modelos abertos recentes e deve se tornar mais comum à medida que laboratórios menores tentam competir com os modelos fechados dos grandes players sem o mesmo orçamento de inferência. A pergunta que fica é se a licença de receita limitada vai se firmar como modelo de negócio replicável ou se vai empurrar desenvolvedores de volta para alternativas totalmente permissivas assim que uma delas alcançar qualidade comparável.
Por ora, o Krea 2 Turbo prova algo mais simples e mais concreto: é possível abrir os pesos de um modelo competitivo no topo do ranking sem abrir mão de controle sobre quem lucra com ele — e essa tensão, entre abertura técnica e fechamento comercial, é provavelmente o traço mais definidor da nova geração de modelos de imagem.
Perguntas Frequentes
O que é um Diffusion Transformer (DiT)?
É uma arquitetura de modelo de geração de imagem que usa blocos de atenção do tipo transformer — a mesma família de mecanismo usada em modelos de linguagem como o GPT — para conduzir o processo de difusão, que parte de ruído aleatório e vai refinando a imagem em etapas até chegar ao resultado final. Substitui as redes convolucionais usadas em gerações anteriores de modelos de difusão, como o Stable Diffusion original.
Posso usar o Krea 2 Turbo comercialmente de graça?
Sim, desde que sua empresa (incluindo entidades afiliadas) fature menos de US$ 1 milhão por ano e tenha até 50 assentos de uso. Ultrapassar qualquer um desses limites exige contratar uma licença Enterprise diretamente com a Krea.
Qual a diferença entre Krea 2 Raw e Krea 2 Turbo?
O Raw é a versão base, guiada por CFG, pensada para fine-tuning e treinamento de LoRAs de estilo. O Turbo é uma versão destilada do Raw que gera imagens em apenas 8 passos de inferência, priorizando velocidade — cerca de 2 segundos para uma imagem em 2K — em troca de alguma perda de nuance frente ao Raw.
O modelo realmente é o melhor entre os modelos abertos?
Segundo a Artificial Analysis, o Krea 2 ocupa a primeira posição entre modelos de laboratórios independentes na categoria texto-para-imagem. A posição no ranking geral, somando também modelos fechados de grandes empresas, varia entre 6º e 10º lugar conforme a fonte e a janela de avaliação — a própria Krea reconhece essa variação em sua documentação técnica.