Editorial Dados & Embeddings

TabFM: o Google mira a última fronteira do deep learning — a planilha

O Google Research lançou um modelo de fundação que prevê sobre tabelas sem treino, hiperparâmetros ou engenharia de features. É um avanço real — e, no mesmo dia, um paper em alta já lembrava por que o XGBoost ainda não vai a lugar nenhum.

Ponto Zero ·

Enquanto os holofotes da IA seguem apontados para chatbots que escrevem código e modelos que geram vídeo, o trabalho de verdade de boa parte das empresas continua acontecendo num lugar sem glamour: a tabela. Colunas, linhas, um valor a prever — churn de cliente, risco de crédito, fraude. É a espinha dorsal da infraestrutura de dados corporativa, e também o único território onde o deep learning nunca reinou. Ali, por mais de uma década, quem manda são as árvores de decisão do XGBoost.

Em 30 de junho de 2026, o Google Research resolveu atacar essa fronteira de frente. O TabFM — abreviação de Tabular Foundation Model — promete fazer classificação e regressão sobre qualquer tabela que nunca viu antes, sem treino, sem ajuste de hiperparâmetros e sem engenharia de features. Um único passe de inferência, e sai a previsão.

O que significa "zero-shot" numa planilha

A ideia central é emprestada dos grandes modelos de linguagem: in-context learning (ICL), ou aprendizado em contexto. Em vez de treinar um modelo do zero para cada tarefa, você entrega ao TabFM a tabela inteira — as linhas rotuladas que servem de exemplo e as linhas que quer prever — como se fossem um único "prompt". O modelo lê tudo de uma vez e devolve as respostas.

Zero-shot, aqui, quer dizer exatamente isso: nenhum ajuste específico. O TabFM não é retreinado para o seu problema de detecção de fraude; ele generaliza a partir do que aprendeu no pré-treino. É a mesma lógica que faz um LLM responder sobre um assunto que não estava explicitamente no treino — transportada para dados estruturados.

  • Instituição: Google Research — autores principais Weihao Kong e Abhimanyu Das.
  • Pesos abertos: sim — google/tabfm-1.0.0-pytorch no Hugging Face e google-research/tabfm no GitHub.
  • Integração: chegada planejada ao BigQuery via AI.PREDICT em SQL.
  • Pré-treino: centenas de milhões de datasets sintéticos gerados por modelos causais estruturais (SCMs).

Como o modelo lê uma tabela

Uma tabela não é texto nem imagem — tem uma estrutura própria, com dependências entre colunas e entre linhas. O TabFM lida com isso por três mecanismos combinados. Primeiro, uma atenção alternada linha-coluna, que percorre a tabela nos dois sentidos para capturar como as features interagem. Segundo, uma compressão de linhas, que condensa cada linha inteira numa representação densa única. Terceiro, um transformer eficiente que faz o ICL operando sobre esses embeddings já comprimidos — o que permite processar tabelas grandes sem estourar o custo.

O desenho é declaradamente híbrido, herdando ideias de dois antecessores acadêmicos: o TabPFN (que em 2022 mostrou ser possível "pré-treinar" um modelo tabular em dados sintéticos) e o TabICL (que trouxe a atenção comprimida e eficiente). O TabFM é a tentativa do Google de levar essa linhagem à escala industrial.

O truque dos dados sintéticos

Há um problema incômodo no coração dos modelos tabulares: bons datasets são escassos. Ao contrário de texto e imagens, que a internet oferece aos petabytes, tabelas de qualidade — sobretudo as massivas, com esquemas proprietários — quase nunca são públicas. A saída do Google foi não depender delas.

O TabFM foi pré-treinado em centenas de milhões de conjuntos sintéticos, gerados dinamicamente por Structural Causal Models — modelos que descrevem relações de causa e efeito entre variáveis. Na prática, o Google fabricou um universo quase infinito de "tabelas de mentira", cada uma com sua própria lógica interna, e ensinou o modelo a encontrar o padrão em qualquer uma. A aposta é que essa variedade sintética cubra a diversidade das tabelas reais.

Os números — e onde eles valem

A avaliação foi feita no TabArena, um benchmark com 38 tarefas de classificação e 13 de regressão, cobrindo conjuntos de 700 a 150 mil amostras. Em duas versões — o TabFM puro, que dá previsões diretas, e o TabFM-Ensemble, que combina 32 variações com features cruzadas, SVD e calibração de Platt —, o modelo alcança Elo ratings superiores aos dos dez melhores algoritmos do benchmark, superando de forma consistente métodos supervisionados que passaram por ajuste pesado.

Traduzindo: sem gastar horas garimpando hiperparâmetros, o TabFM chega ou passa o que o XGBoost bem afinado entrega. Para quem já perdeu tardes ajustando learning rate e profundidade de árvore, isso não é pouca coisa.

A ressalva que chegou no mesmo dia

O Ponto Zero não vende hype, e a própria comunidade tratou de calibrar o entusiasmo. No mesmo 30 de junho, um dos papers mais votados do dia no Hugging Face era "Beyond IID: How General Are Tabular Foundation Models, Really?". A conclusão é sóbria: modelos de fundação tabular brilham em dados pequenos e médios, mas em cenários complexos os métodos tradicionais ainda dominam.

Benchmarks independentes reforçam o ponto — para tarefas tabulares de escala média, as árvores de gradiente bem ajustadas seguem sendo a solução Pareto-ótima, superando os modelos de fundação zero-shot em eficiência por ordens de grandeza. O TabFM precisa carregar a tabela inteira como contexto e roda numa rede pesada; um XGBoost cabe num laptop e responde em milissegundos. O avanço é de conveniência e generalização, não necessariamente de precisão bruta ou de custo.

Por que ainda assim importa

A promessa do TabFM não é aposentar o XGBoost amanhã — é mudar quem consegue usar machine learning tabular. Ao dobrar a previsão sobre tabelas em algo tão simples quanto um comando AI.PREDICT dentro do BigQuery, o Google mira o analista que sabe SQL mas nunca ajustou um modelo. Se a última fronteira do deep learning não vai cair pela precisão, talvez caia pela porta de entrada.

Perguntas Frequentes

O que é um modelo de fundação para dados tabulares?

É um modelo pré-treinado uma única vez que, depois, faz previsões sobre tabelas novas sem retreino — como um LLM responde sobre assuntos variados. O TabFM aplica essa ideia a classificação e regressão em planilhas.

O TabFM substitui o XGBoost?

Ainda não. Ele iguala ou supera o XGBoost bem ajustado em muitos casos e dispensa a afinação manual, mas para tarefas complexas ou de grande escala as árvores de gradiente seguem mais precisas e muito mais baratas de rodar.

Os pesos são abertos?

Sim. O modelo está disponível como google/tabfm-1.0.0-pytorch no Hugging Face e o código no repositório google-research/tabfm no GitHub.

Como o modelo foi treinado sem dados tabulares abertos suficientes?

Com dados sintéticos. O Google gerou centenas de milhões de tabelas artificiais usando modelos causais estruturais (SCMs), ensinando o TabFM a reconhecer padrões sem depender de datasets reais escassos.

compartilhar: