Editorial Visão Computacional

Unlimited-OCR: a Baidu derruba o muro da memória na leitura de documentos

Com 3 bilhões de parâmetros e apenas 500 milhões ativos, o modelo aberto da Baidu lê dezenas de páginas num único passe mantendo o cache de memória constante — e passa o DeepSeek OCR em precisão e velocidade.

Ponto Zero · 30 de janeiro de 2026

Todo mundo que já tentou extrair texto de um PDF longo conhece o problema, mesmo sem saber o nome dele. Não é ler uma página — é ler quarenta sem se perder no caminho. Os modelos de OCR (reconhecimento óptico de caracteres) modernos enxergam bem, mas quando o documento cresce, a memória que eles precisam manter cresce junto, até bater num muro. A Baidu diz ter derrubado esse muro.

Aberto em 22 de junho de 2026 sob licença MIT, o Unlimited-OCR lê documentos longos num único passe de inferência sem que o consumo de memória exploda. Em pouco mais de dez dias, o modelo passou de 400 mil downloads no Hugging Face — um dos lançamentos de visão mais adotados do mês.

O problema do cache que só cresce

Modelos de linguagem e visão guardam, enquanto processam, uma espécie de memória de trabalho chamada KV cache (cache de chaves e valores) — anotações sobre tudo o que já leram, para não recalcular. O incômodo é que esse cache cresce a cada novo trecho: dobre o tamanho do documento e a memória necessária dobra também. Em textos muito longos, isso vira o gargalo — não a inteligência do modelo, mas a RAM da placa de vídeo.

A solução da Baidu foi trocar o mecanismo de atenção do decodificador por uma Reference Sliding Window Attention (R-SWA), ou atenção por janela deslizante. Em vez de manter tudo na memória, o modelo desliza uma janela sobre o documento, mantendo o cache constante — plano, no jargão — independentemente do número de páginas. É a diferença entre carregar o livro inteiro nos braços e virar uma página de cada vez sem nunca soltar o fio da meada.

      Arquitetura: Mixture-of-Experts de 3B de parâmetros, com apenas 500M ativos por token.
Capacidade: dezenas de páginas num único passe, com limite máximo de 32K tokens.
OmniDocBench v1.5: 93,23 — 6,22 pontos acima da linha de base do DeepSeek OCR.
Velocidade: ~35% mais throughput que o DeepSeek OCR em saídas longas.
Licença: MIT · pesos abertos no Hugging Face (baidu/Unlimited-OCR).

    

Pequeno por fora, capaz por dentro

O Unlimited-OCR é um modelo Mixture-of-Experts: tem 3 bilhões de parâmetros, mas ativa só 500 milhões a cada token. Na prática, roda com o custo de um modelo pequeno enquanto carrega o conhecimento de um maior — o que ajuda a explicar por que virou tão popular tão rápido. Não é preciso um data center para colocá-lo de pé.

E ele não apenas transcreve. O modelo reconhece estruturas — tabelas, fórmulas, gráficos, layouts de coluna mista — preservando a organização lógica do documento. A diferença entre "extrair as palavras" e "entender que aquilo é uma tabela com três colunas" é justamente o que separa um OCR útil de um monte de texto embaralhado.

Os números contra o DeepSeek

O comparativo natural é o DeepSeek OCR, que vinha sendo a referência aberta. No OmniDocBench v1.5, benchmark de parsing de documentos, o Unlimited-OCR marca 93,23 — 6,22 pontos acima da linha de base do DeepSeek. E não paga por isso em lentidão: em testes de saída longa, a Baidu mediu cerca de 35% mais throughput. Mais preciso e mais rápido, ao mesmo tempo, é uma combinação que raramente aparece junta.

Onde isso muda o jogo

OCR não é assunto glamouroso, mas é infraestrutura. Contratos, laudos, prontuários, relatórios financeiros de centenas de páginas — a economia digital roda sobre documentos que alguém precisa converter em dados. Um modelo aberto que lê um livro inteiro de uma vez, com cache constante e licença MIT, coloca essa capacidade ao alcance de qualquer pipeline de "document AI" sem custo de licenciamento nem de hardware exótico. O muro da memória caiu; o que estava atrás dele é trabalho de verdade.

Perguntas Frequentes

O que é o KV cache e por que ele importa no OCR?

É a memória de trabalho que o modelo mantém enquanto lê. Normalmente ela cresce com o tamanho do documento, virando gargalo em textos longos. O Unlimited-OCR mantém esse cache constante, o que permite ler dezenas de páginas sem estourar a memória.

Ele é melhor que o DeepSeek OCR?

Nos benchmarks divulgados, sim: 93,23 contra a linha de base do DeepSeek no OmniDocBench v1.5 (6,22 pontos a mais) e cerca de 35% mais velocidade em saídas longas.

Preciso de hardware potente para rodar?

Menos do que o tamanho sugere. Apesar dos 3 bilhões de parâmetros, o modelo ativa só 500 milhões por token (arquitetura Mixture-of-Experts), rodando com custo de um modelo pequeno.

O Unlimited-OCR é aberto?

Sim, sob licença MIT — uma das mais permissivas. Os pesos estão no Hugging Face como baidu/Unlimited-OCR, livres para uso, modificação e integração comercial.

// relacionados

Unlimited-OCR: a Baidu derruba o muro da memória na leitura de documentos

O problema do cache que só cresce

Pequeno por fora, capaz por dentro

Os números contra o DeepSeek

Onde isso muda o jogo

Perguntas Frequentes

O que é o KV cache e por que ele importa no OCR?

Ele é melhor que o DeepSeek OCR?

Preciso de hardware potente para rodar?

O Unlimited-OCR é aberto?

Leia também

Claude Science is Anthropic’s newest flagship product

New attack provides one more reason why AI browsers are a bad idea

NVIDIA BioNeMo Agent Toolkit Brings Accelerated AI to Life Sciences Researchers in Claude Science

How NVIDIA’s Inference Software Stack Powers the Lowest Token Cost