Editorial LLMs & Texto

LFM2.5-230M: o modelo da Liquid AI que roda num Raspberry Pi — e numa boa

Com 230 milhões de parâmetros, o menor modelo da Liquid AI cabe num celular, dispensa a nuvem e, segundo a empresa, bate redes quatro vezes maiores em extração de dados.

Ponto Zero ·

Enquanto a indústria mede potência em trilhões de parâmetros, a Liquid AI foi na direção contrária e tornou notícia. O LFM2.5-230M — 230 milhões de parâmetros, uma fração ínfima dos modelos de fronteira — foi disponibilizado em 27 de junho com suporte amplo a runtimes de inferência local. A graça não está no que ele tem, mas em onde ele cabe: praticamente em qualquer lugar.

É o tipo de lançamento que não vira manchete de "AGI chegou", mas que pode mexer mais com o cotidiano da IA do que o próximo gigante de nuvem. Porque resolve um problema concreto: rodar inteligência sem depender de servidor, conexão ou fatura de API.

Pequeno por projeto, não por limitação

O LFM2.5-230M herda a arquitetura híbrida LFM2, desenhada pela Liquid AI para inferência rápida e econômica em CPUs e NPUs — os chips de processadores e celulares, não as GPUs caras de data center. Em vez de mirar o topo dos benchmarks de raciocínio, ele é otimizado para tarefas onde modelos pequenos brilham: extração de dados, uso de ferramentas, ajuste fino para domínios específicos.

Os números de velocidade ilustram a proposta. No Galaxy S25 Ultra, decodifica a 213 tokens por segundo; num Raspberry Pi 5 — um computador de placa única que cabe na palma da mão e custa o preço de um jantar —, sustenta 42 tokens por segundo. São cadências que tornam a IA local fluida, não uma curiosidade que engasga.

  • Tamanho: 230 milhões de parâmetros — o menor modelo da Liquid AI até hoje.
  • Velocidade: 213 tokens/s no Galaxy S25 Ultra; 42 tokens/s num Raspberry Pi 5.
  • Forte em: extração de dados, uso de ferramentas, ajuste fino e agentes no dispositivo — onde, segundo a Liquid, supera modelos 4× maiores.
  • Runtimes: llama.cpp, MLX, vLLM, SGLang e ONNX — da GPU na nuvem à CPU barata.
  • Licença: pesos abertos, voltados a fine-tuning e implantação na borda.

Por que "rodar na borda" importa

"Borda" (edge) é o jargão para o oposto da nuvem: o dispositivo na mão do usuário — celular, sensor, eletrodoméstico, robô. Rodar o modelo ali, em vez de mandar cada pedido a um servidor distante, muda três coisas de uma vez.

Primeiro, privacidade: os dados nunca saem do aparelho. Um modelo que extrai informações de documentos sensíveis localmente não os expõe a nenhum terceiro. Segundo, latência: sem ida e volta à internet, a resposta é instantânea e funciona offline, no avião ou no subsolo. Terceiro, custo: não há fatura por token, nem GPU alugada — o processamento usa o silício que o usuário já pagou.

O modelo de fronteira na nuvem e o modelo minúsculo na borda não competem; complementam-se. Para resumir um e-mail, classificar uma nota fiscal ou acionar uma função, um modelo de 230 milhões de parâmetros basta — e faz isso sem telemetria nem espera.

A faixa que a Liquid AI cultiva

O LFM2.5-230M não é peça solta: integra uma família que a Liquid AI vem povoando com modelos compactos — do LFM2.5-8B-A1B, um mixture-of-experts de apenas 1,5 bilhão de parâmetros ativos voltado a chamada de ferramentas, ao LFM2.5-VL-450M, um modelo de visão-linguagem com inferência abaixo de 250 milissegundos em hardware embarcado. É uma aposta consistente: a de que o futuro da IA não é só maior, mas também menor e mais perto do usuário.

Cabe o ceticismo: "supera modelos 4× maiores" é uma afirmação da própria empresa e vale para tarefas específicas, não para raciocínio geral, onde um modelo desse porte tem limites óbvios. Ninguém vai escrever um ensaio ou depurar um sistema complexo com 230 milhões de parâmetros. Mas para o enxame de tarefas pequenas e repetitivas que IA local pode absorver — silenciosas, privadas e gratuitas —, o LFM2.5-230M mostra que o tamanho certo às vezes é o menor que resolve.

Perguntas Frequentes

Um modelo de 230 milhões de parâmetros é útil de verdade?

Para tarefas específicas, sim: extração de dados, classificação, uso de ferramentas e agentes no dispositivo. Não substitui modelos de fronteira em raciocínio aberto ou textos longos, mas resolve com folga o enxame de tarefas pequenas que não justificam uma chamada à nuvem.

O que significa rodar IA "na borda"?

Significa executar o modelo diretamente no dispositivo do usuário — celular, Raspberry Pi, sensor — em vez de num servidor remoto. Isso traz privacidade (os dados não saem do aparelho), latência baixa (funciona offline e instantâneo) e custo zero por uso.

Em que hardware o LFM2.5-230M roda?

De GPUs na nuvem a CPUs baratas. Tem suporte a llama.cpp, MLX, vLLM, SGLang e ONNX, e atinge 213 tokens/s num Galaxy S25 Ultra e 42 tokens/s num Raspberry Pi 5.

Como ele se compara a modelos maiores?

Segundo a Liquid AI, supera modelos até quatro vezes maiores em tarefas como extração de dados — uma afirmação da própria empresa, restrita a domínios específicos. Em raciocínio geral, modelos maiores seguem à frente; o trunfo do LFM2.5-230M é fazer muito com pouquíssimo, no próprio dispositivo.

compartilhar: