Editorial Visão Computacional

Unlimited-OCR: o modelo da Baidu que lê o livro inteiro de uma vez — e mantém o KV cache constante

Com apenas 500M de parâmetros ativos e uma atenção deslizante inédita, o Unlimited-OCR elimina o chunking de documentos — e acumula 1,8 mil estrelas no GitHub em menos de 24 horas de abertura.

Ponto Zero · 25 de janeiro de 2026

OCR — reconhecimento óptico de caracteres — é uma das tarefas mais antigas e mais necessárias em processamento de documentos. Digitalizar PDFs, extrair texto de formulários escaneados, converter faturas e contratos em dados estruturados: são operações que empresas fazem por bilhões de vezes ao dia. E ainda são operações cheias de fricção.

O problema mais comum é o documento longo. Modelos de OCR baseados em visão têm janela de contexto finita — eles processam imagens em chunks (pedaços), extraem texto de cada um e tentam montar o resultado. Juntar os chunks sem perder contexto entre páginas é difícil: cabeçalhos que permeiam o documento, tabelas que cruzam páginas, numeração de referências — tudo isso exige que o modelo saiba onde está no documento como um todo, não apenas no chunk corrente.

O Unlimited-OCR da Baidu, lançado em 22 de junho com código aberto e pesos disponíveis, resolve isso com uma arquitetura que mantém o KV cache constante independentemente do tamanho do documento. Um livro inteiro cabe numa única passagem. Nas primeiras 24 horas, o repositório acumulou 1,8 mil estrelas no GitHub.

R-SWA: atenção deslizante com referência global

A inovação central do Unlimited-OCR é o R-SWA — Reference Sliding Window Attention. Para entender o que é novo, vale entender o que é convencional.

Em modelos de linguagem padrão, atenção completa (full attention) permite que cada token atenda a todos os outros tokens na sequência. Isso é poderoso mas quadrático em memória — dobrar o número de tokens quadruplica o KV cache. Janela deslizante (sliding window attention) limita a atenção local: cada token atende apenas aos N tokens anteriores. Isso mantém o custo linear, mas perde contexto global.

O R-SWA é uma combinação híbrida: para cada token de saída, a atenção atende a dois conjuntos distintos. Primeiro, os tokens de referência — os tokens visuais (a imagem do documento) e o prompt. Esses tokens globais estão sempre disponíveis para qualquer posição de saída. Segundo, uma janela local dos N tokens de saída anteriores (padrão: 128). A janela local rastrea o progresso do OCR; os tokens de referência mantêm o contexto da imagem completa.

O resultado é que o KV cache não cresce com o tamanho da saída — cresce apenas com o número de tokens de referência (a imagem), que é fixo. Documentos de dezenas de páginas podem ser processados sem aumentar o consumo de memória proporcional à sua extensão.

      Arquitetura: MoE 3B total, 500M ativos — compacto e eficiente
Inovação: Reference Sliding Window Attention (R-SWA) — KV cache constante, independente do tamanho do documento
Capacidade: documentos inteiros numa única passagem, até 32K tokens de saída
Resultados: supera o DeepSeek OCR em benchmarks de documentos longos
Adoção: 1,8K estrelas no GitHub nas primeiras 24h após lançamento
Disponibilidade: open-source — código e pesos no Hugging Face (baidu/Unlimited-OCR)

    

3 bilhões no total, 500 milhões ativos

O Unlimited-OCR usa uma arquitetura MoE — Mixture of Experts — com 3 bilhões de parâmetros totais mas apenas 500 milhões ativos por token. Em MoE, cada token é roteado para um subconjunto dos "especialistas" (redes menores dentro do modelo), em vez de passar por todos os parâmetros. Isso mantém o custo de computação baixo mesmo num modelo com capacidade total maior.

Para OCR, essa é uma propriedade importante. Diferentes tipos de conteúdo visual — texto impresso, manuscritos, tabelas, fórmulas matemáticas, código — têm padrões distintos. Um MoE pode desenvolver especialistas com sensibilidade diferente a cada tipo, ativando os mais relevantes dependendo do trecho que está processando.

O DeEncoder (o codificador de imagem do modelo) comprime as páginas do documento em número reduzido de tokens visuais antes do processamento linguístico. Isso é o que torna a abordagem de referência global viável: se a imagem fosse representada por muitos tokens, o KV cache de referência seria grande demais. Com compressão eficiente, o conjunto de referência permanece manejável.

Por que "uma passagem" muda o fluxo de trabalho

Para quem processa documentos em produção, a diferença entre chunking e passagem única não é apenas de qualidade — é de arquitetura de sistema. Chunking exige lógica de divisão, recombinação e tratamento de casos de borda (o que fazer quando uma frase cruza um chunk?). Passagem única elimina essa camada de complexidade.

Pipeline de chunking típico: dividir PDF em páginas, processar cada página, extrair texto, detectar continuações entre páginas, montar saída final. Com o Unlimited-OCR: enviar PDF, receber texto. A redução de peças móveis no sistema diminui superfície de erro e latência total, especialmente quando os documentos têm estrutura complexa que o chunking regular não respeita (tabelas multi-página, por exemplo).

Código aberto, mas com concorrência

O campo de OCR multimodal está movimentado. O DeepSeek OCR foi a referência anterior mais citada. O olmOCR (Allen AI) tem benchmark próprio e foco em PDFs científicos. O Mistral OCR 4 foi mencionado esta semana como vencedor em 72% de comparações diretas segundo a empresa. O Unlimited-OCR entra nesse campo com uma proposta arquitetural distinta — não apenas um modelo melhor no benchmark existente, mas uma abordagem que elimina uma categoria inteira de problemas (chunking de documentos longos).

As 1,8 mil estrelas em 24 horas sugerem que a comunidade reconhece a distinção. O teste real serão benchmarks independentes em documentos do mundo real — relatórios anuais, processos judiciais, prontuários médicos — onde a qualidade do chunking de sistemas convencionais deteriora visualmente.

Perguntas Frequentes

O que é OCR e por que ainda é um problema?

Optical Character Recognition — conversão de imagens contendo texto em texto digital editável. Apesar de ser uma tecnologia antiga, documentos do mundo real são complexos: fontes variadas, layout em colunas, tabelas, imagens misturadas com texto, qualidade de digitalização irregular, idiomas múltiplos. Modelos modernos de visão melhoraram muito, mas documentos longos e complexos ainda apresentam desafios de coerência.

O que é KV cache?

Durante a inferência de modelos de atenção, os vetores-chave (K) e valores (V) de cada token são calculados e armazenados em cache para evitar recalculação a cada novo token gerado. Em geração de texto longa, o KV cache cresce com o número de tokens — podendo exceder a memória da GPU para documentos muito extensos.

Qual é a diferença do Unlimited-OCR para um modelo de OCR convencional?

Modelos convencionais de OCR processam imagens em janelas fixas e operam sobre texto; modelos multimodais como o Unlimited-OCR processam a imagem do documento diretamente, sem etapas intermediárias de segmentação. Isso preserva contexto visual — layout, hierarquia tipográfica, relação entre elementos — que sistemas tradicionais perdem na conversão.

Posso usar o Unlimited-OCR gratuitamente em produção?

Os pesos e código estão disponíveis abertamente no Hugging Face. A licença específica deve ser verificada no repositório antes de uso comercial — Baidu historicamente adota licenças abertas mas com restrições de uso comercial para modelos de grande escala.

// relacionados

Unlimited-OCR: o modelo da Baidu que lê o livro inteiro de uma vez — e mantém o KV cache constante

R-SWA: atenção deslizante com referência global

3 bilhões no total, 500 milhões ativos

Por que "uma passagem" muda o fluxo de trabalho

Código aberto, mas com concorrência

Perguntas Frequentes

O que é OCR e por que ainda é um problema?

O que é KV cache?

Qual é a diferença do Unlimited-OCR para um modelo de OCR convencional?

Posso usar o Unlimited-OCR gratuitamente em produção?

Leia também

Rapidata/svg-benchmark

LEVIRDet: A Million-Scale 159-Category Dataset and Foundation Model for Universal Remote Sensing Object Detection

Evaluation Protocols and Validation for Cameras in Indoor Healthcare Monitoring

OrthoTrack: Continuous 6-DoF UAV Trajectory Estimation Anchored in Public Orthophotos