Krea 2: um modelo de imagem aberto que se recusa a aprender com imagens de IA
A Krea liberou os pesos de um transformer de difusão treinado só com fotografias reais — e publicou o relatório técnico que laboratórios de ponta costumam trancar a sete chaves.
Há uma ironia que assombra a geração de imagens por IA: quanto mais a internet se enche de figuras sintéticas, mais perigoso fica treinar novos modelos com o que se encontra por aí. É a versão visual de uma fotocópia de fotocópia — a cada geração, o ruído se acumula e a diversidade morre. A Krea, ao liberar os pesos do Krea 2 em 22 de junho, fez disso uma bandeira: o modelo não viu, em treino, nenhuma imagem feita por outra máquina.
A decisão é incomum num mercado onde dados sintéticos viraram atalho padrão. E vem acompanhada de algo ainda mais raro: um relatório técnico completo, do filtro de dados à infraestrutura de treino distribuído — o tipo de documento que as fronteiras fechadas guardam como segredo industrial.
Dois modelos, dois propósitos
O Krea 2 é um transformer de difusão (DiT) e sai em duas versões. A Raw é a base não destilada, pensada para pesquisa e ajuste fino — é nela que se treinam LoRAs e estilos próprios. A Turbo é a mesma rede comprimida por destilação de passos: gera imagens em 2K em poucos segundos, em hardware de consumo, ao custo de menos flexibilidade. É a velha troca entre liberdade de quem quer experimentar e velocidade de quem quer produzir.
Difusão, vale lembrar, é o processo de partir de puro ruído e removê-lo aos poucos até emergir uma imagem coerente — como revelar uma fotografia em câmara escura, só que guiado por texto. A versão Turbo faz isso em poucos passos; a Raw, em muitos, com mais controle.
- Arquitetura: transformer de difusão com atenção de consulta agrupada (GQA) e portões sigmoides, MLPs SwiGLU em expansão 4×, normalização RMSNorm centrada em zero.
- Texto: usa o Qwen 3-VL como codificador de texto, agregando características de várias camadas.
- Dados: bilhões de imagens reais; classificadores dedicados removem amostras sintéticas. A curadoria prioriza diversidade de estilo, não só "qualidade" — borrão de movimento pode ser escolha artística.
- Posição: entre os 10 melhores da Artificial Analysis em texto-para-imagem; 2º lugar entre laboratórios independentes.
- Licença: permissiva, com termos próprios; uso comercial livre para indivíduos e times pequenos.
O argumento contra o sintético
A tese da Krea é direta e desconfortável: "mesmo uma pequena proporção de imagens geradas por IA introduz vieses na distribuição de saída do modelo". Em vez de confiar que a escala dilui o problema, a equipe construiu classificadores específicos para detectar e descartar amostras sintéticas durante o pré-treino.
É uma aposta que vai contra a corrente. Dados sintéticos são baratos, abundantes e fáceis de rotular — por isso seduzem. O preço escondido é o colapso de modelo: a tendência de redes treinadas nas próprias saídas convergirem para o genérico, perdendo as caudas raras da distribuição que dão a uma imagem o frescor do inesperado. Ao recusar o sintético, a Krea troca conveniência por diversidade.
Há uma sofisticação adicional na curadoria. Em vez de filtrar tudo que não pareça "de alta qualidade", o pipeline preserva imperfeições deliberadas — desfoque, suavidade, granulação. A lógica é estética: o que um filtro automático descartaria como defeito pode ser exatamente a textura que um artista busca.
Engenharia à mostra
A parte do relatório que mais chama atenção de quem constrói modelos é a infraestrutura. A Krea escreveu o próprio arcabouço de treino do zero sobre o DTensor e o torchtitan do PyTorch, combinando FSDP2 com paralelismo de tensor à la Megatron-LM. Trocou o sistema de arquivos Ceph pelo Weka por desempenho de checkpoint — cerca de 30 segundos para salvar o estado do treino, contra minutos. Detalhes assim raramente vêm a público.
O treino segue em estágios: pré-treino em resoluções crescentes (256, 512, 1024 pixels), midtraining, ajuste supervisionado, otimização por preferência e, por fim, aprendizado por reforço — com destilação de passos opcional para gerar a Turbo. O uso de treino em 8 bits nas resoluções menores rende, segundo o relatório, 15% a 20% de ganho de velocidade com perda mínima de qualidade.
O que muda ter isso aberto
Modelos de imagem de ponta com pesos abertos e relatório detalhado são raros — a maioria fica atrás de APIs ou licenças restritivas. Ao publicar os dois, a Krea oferece à comunidade não só uma ferramenta competitiva, mas um mapa de como chegou até ela. Para quem pesquisa, o relatório vale tanto quanto os pesos.
O ceticismo de praxe se aplica: "2º lugar entre laboratórios independentes" é uma faixa estreita e disputada, e os números de benchmark de imagem são notoriamente sensíveis ao gosto de quem avalia. Mas a aposta de fundo — a de que diversidade real vale mais que escala sintética — é uma hipótese séria sobre o futuro da geração de imagens. O Krea 2 a coloca à prova com os pesos na mesa, e não apenas no slide.
Perguntas Frequentes
Qual a diferença entre Krea 2 Raw e Turbo?
A Raw é o modelo base não destilado, ideal para pesquisa e ajuste fino (treino de LoRAs e estilos). A Turbo é uma versão destilada que gera imagens em 2K em poucos segundos no hardware do usuário, trocando flexibilidade por velocidade.
Por que a Krea recusou dados sintéticos no treino?
Porque, segundo a equipe, mesmo uma fração pequena de imagens geradas por IA introduz vieses que degradam a diversidade das saídas — o fenômeno conhecido como colapso de modelo. Eles usaram classificadores próprios para filtrar amostras sintéticas e treinar só com fotografias reais.
O Krea 2 pode ser usado comercialmente?
Sim, sob uma licença permissiva com termos próprios: uso comercial livre para indivíduos e times pequenos, com regras específicas publicadas pela Krea. Os pesos estão disponíveis no Hugging Face.
Onde o Krea 2 se posiciona frente a outros modelos?
Está entre os dez melhores da Artificial Analysis em texto-para-imagem e em 2º lugar entre os de laboratórios independentes — uma faixa competitiva, ainda que os benchmarks de imagem sejam sensíveis ao critério estético de avaliação.