TabFM: o Google mira a última fronteira do deep learning — a planilha
O Google Research lançou um modelo de fundação que prevê sobre tabelas sem treino, hiperparâmetros ou engenharia de features. É um avanço real — e, no mesmo dia, um paper em alta já lembrava por que o XGBoost ainda não vai a lugar nenhum.
Enquanto os holofotes da IA seguem apontados para chatbots que escrevem código e modelos que geram vídeo, o trabalho de verdade de boa parte das empresas continua acontecendo num lugar sem glamour: a tabela. Colunas, linhas, um valor a prever — churn de cliente, risco de crédito, fraude. É a espinha dorsal da infraestrutura de dados corporativa, e também o único território onde o deep learning nunca reinou. Ali, por mais de uma década, quem manda são as árvores de decisão do XGBoost.
Em 30 de junho de 2026, o Google Research resolveu atacar essa fronteira de frente. O TabFM — abreviação de Tabular Foundation Model — promete fazer classificação e regressão sobre qualquer tabela que nunca viu antes, sem treino, sem ajuste de hiperparâmetros e sem engenharia de features. Um único passe de inferência, e sai a previsão.
O que significa "zero-shot" numa planilha
A ideia central é emprestada dos grandes modelos de linguagem: in-context learning (ICL), ou aprendizado em contexto. Em vez de treinar um modelo do zero para cada tarefa, você entrega ao TabFM a tabela inteira — as linhas rotuladas que servem de exemplo e as linhas que quer prever — como se fossem um único "prompt". O modelo lê tudo de uma vez e devolve as respostas.
Zero-shot, aqui, quer dizer exatamente isso: nenhum ajuste específico. O TabFM não é retreinado para o seu problema de detecção de fraude; ele generaliza a partir do que aprendeu no pré-treino. É a mesma lógica que faz um LLM responder sobre um assunto que não estava explicitamente no treino — transportada para dados estruturados.
- Instituição: Google Research — autores principais Weihao Kong e Abhimanyu Das.
- Pesos abertos: sim —
google/tabfm-1.0.0-pytorchno Hugging Face egoogle-research/tabfmno GitHub. - Integração: chegada planejada ao BigQuery via
AI.PREDICTem SQL. - Pré-treino: centenas de milhões de datasets sintéticos gerados por modelos causais estruturais (SCMs).
Como o modelo lê uma tabela
Uma tabela não é texto nem imagem — tem uma estrutura própria, com dependências entre colunas e entre linhas. O TabFM lida com isso por três mecanismos combinados. Primeiro, uma atenção alternada linha-coluna, que percorre a tabela nos dois sentidos para capturar como as features interagem. Segundo, uma compressão de linhas, que condensa cada linha inteira numa representação densa única. Terceiro, um transformer eficiente que faz o ICL operando sobre esses embeddings já comprimidos — o que permite processar tabelas grandes sem estourar o custo.
O desenho é declaradamente híbrido, herdando ideias de dois antecessores acadêmicos: o TabPFN (que em 2022 mostrou ser possível "pré-treinar" um modelo tabular em dados sintéticos) e o TabICL (que trouxe a atenção comprimida e eficiente). O TabFM é a tentativa do Google de levar essa linhagem à escala industrial.
O truque dos dados sintéticos
Há um problema incômodo no coração dos modelos tabulares: bons datasets são escassos. Ao contrário de texto e imagens, que a internet oferece aos petabytes, tabelas de qualidade — sobretudo as massivas, com esquemas proprietários — quase nunca são públicas. A saída do Google foi não depender delas.
O TabFM foi pré-treinado em centenas de milhões de conjuntos sintéticos, gerados dinamicamente por Structural Causal Models — modelos que descrevem relações de causa e efeito entre variáveis. Na prática, o Google fabricou um universo quase infinito de "tabelas de mentira", cada uma com sua própria lógica interna, e ensinou o modelo a encontrar o padrão em qualquer uma. A aposta é que essa variedade sintética cubra a diversidade das tabelas reais.
Os números — e onde eles valem
A avaliação foi feita no TabArena, um benchmark com 38 tarefas de classificação e 13 de regressão, cobrindo conjuntos de 700 a 150 mil amostras. Em duas versões — o TabFM puro, que dá previsões diretas, e o TabFM-Ensemble, que combina 32 variações com features cruzadas, SVD e calibração de Platt —, o modelo alcança Elo ratings superiores aos dos dez melhores algoritmos do benchmark, superando de forma consistente métodos supervisionados que passaram por ajuste pesado.
Traduzindo: sem gastar horas garimpando hiperparâmetros, o TabFM chega ou passa o que o XGBoost bem afinado entrega. Para quem já perdeu tardes ajustando learning rate e profundidade de árvore, isso não é pouca coisa.
A ressalva que chegou no mesmo dia
O Ponto Zero não vende hype, e a própria comunidade tratou de calibrar o entusiasmo. No mesmo 30 de junho, um dos papers mais votados do dia no Hugging Face era "Beyond IID: How General Are Tabular Foundation Models, Really?". A conclusão é sóbria: modelos de fundação tabular brilham em dados pequenos e médios, mas em cenários complexos os métodos tradicionais ainda dominam.
Benchmarks independentes reforçam o ponto — para tarefas tabulares de escala média, as árvores de gradiente bem ajustadas seguem sendo a solução Pareto-ótima, superando os modelos de fundação zero-shot em eficiência por ordens de grandeza. O TabFM precisa carregar a tabela inteira como contexto e roda numa rede pesada; um XGBoost cabe num laptop e responde em milissegundos. O avanço é de conveniência e generalização, não necessariamente de precisão bruta ou de custo.
Por que ainda assim importa
A promessa do TabFM não é aposentar o XGBoost amanhã — é mudar quem consegue usar machine learning tabular. Ao dobrar a previsão sobre tabelas em algo tão simples quanto um comando AI.PREDICT dentro do BigQuery, o Google mira o analista que sabe SQL mas nunca ajustou um modelo. Se a última fronteira do deep learning não vai cair pela precisão, talvez caia pela porta de entrada.
Perguntas Frequentes
O que é um modelo de fundação para dados tabulares?
É um modelo pré-treinado uma única vez que, depois, faz previsões sobre tabelas novas sem retreino — como um LLM responde sobre assuntos variados. O TabFM aplica essa ideia a classificação e regressão em planilhas.
O TabFM substitui o XGBoost?
Ainda não. Ele iguala ou supera o XGBoost bem ajustado em muitos casos e dispensa a afinação manual, mas para tarefas complexas ou de grande escala as árvores de gradiente seguem mais precisas e muito mais baratas de rodar.
Os pesos são abertos?
Sim. O modelo está disponível como google/tabfm-1.0.0-pytorch no Hugging Face e o código no repositório google-research/tabfm no GitHub.
Como o modelo foi treinado sem dados tabulares abertos suficientes?
Com dados sintéticos. O Google gerou centenas de milhões de tabelas artificiais usando modelos causais estruturais (SCMs), ensinando o TabFM a reconhecer padrões sem depender de datasets reais escassos.