Editorial Dados & Embeddings

ABC-130k: o maior dataset aberto de teleoperação robótica, com 130 mil episódios e US$ 70 mi atrás

A startup XDOF lançou simultaneamente seu primeiro round de financiamento e o maior corpus público de manipulação bimanual já coletado — 3.598 horas em 195 tarefas, formato aberto, Apache 2.0.

Ponto Zero ·

Treinar robôs para manipular objetos no mundo real é, acima de tudo, um problema de dados. Modelos de linguagem escalam porque a internet fornece trilhões de tokens de texto e bilhões de imagens. Robótica não tem esse luxo: cada trajetória precisa ser coletada fisicamente, com operadores humanos guiando os braços robóticos por cada tarefa, quadro a quadro. É lento, caro e proprietário.

A XDOF, startup fundada em Berkeley, decidiu que a solução é construir a infraestrutura de dados que o campo todo precisa — e publicar o resultado abertamente. Em 17 de junho de 2026, a empresa anunciou US$ 70 milhões em financiamento e, ao mesmo tempo, liberou o ABC-130k no Hugging Face sob Apache 2.0: 130.919 episódios, 3.598 horas de manipulação bimanual, 195 tarefas distintas.

O problema que o ABC-130k tenta resolver

Robótica de manipulação opera num paradoxo. Para treinar uma política que funciona bem, você precisa de muitos dados. Para coletar muitos dados, você precisa de robôs operando — mas os robôs só operam bem depois de treinados. O bootstrap é difícil.

A solução dominante tem sido teleoperação: operadores humanos controlam os braços robóticos remotamente, demonstrando o comportamento correto. Cada demonstração vira um episódio de treinamento. Escalar isso exige hardware padronizado, operadores treinados e um pipeline de coleta e anotação eficiente.

Grandes laboratórios — Google DeepMind, Physical Intelligence, Figure — têm suas próprias frota de robôs e suas próprias equipes de teleoperação, e os dados ficam fechados. O resultado é que cada novo player no setor começa do zero. O ABC-130k propõe uma base comum.

O que está no dataset

O ABC-130k foi coletado em estações YAM — dois braços de seis graus de liberdade com garras de mandíbula paralela, equipados com câmeras de topo e de pulso em configurações RealSense ou ZED-X. As câmeras capturam em resoluções de 640 × 480 ou 1920 × 1200 pixels dependendo da estação.

As 195 tarefas cobrem uma variedade de primitivas de manipulação: pegar e colocar, dobrar tecidos, transferência entre braços, inserção de peças, uso de ferramentas e montagem. A duração dos episódios vai de sete segundos (colocar uma chave de fenda num compartimento) a 469 segundos (dobrar uma pilha de camisetas e empilhar). A diversidade é intencional — tarefas curtas e longas, objetos rígidos e flexíveis, operações unilaterais e bilaterais.

  • 130.919 episódios totalizando 3.598 horas de manipulação bimanual
  • 195 tarefas distintas cobrindo pegar/colocar, dobrar, inserção, uso de ferramentas, montagem
  • 43.090 episódios com anotações de subtarefa (rótulos detalhados de etapas intermediárias)
  • Hardware: braços YAM bimanual 6-DOF com câmeras RealSense e ZED-X
  • Formato: MCAP (episodes) + anotações separadas — revisáveis independentemente
  • Licença: Apache 2.0 — uso comercial, modificação e redistribuição livres
  • Partners: UC Berkeley, Carnegie Mellon, MIT e Amazon FAR

O formato MCAP e por que importa

Os dados são distribuídos em arquivos MCAP — um formato de container desenvolvido pela Foxglove para robótica que agrupa streams de sensor com timestamps precisos. Cada episódio contém estado articular dos braços, comandos de garra, vídeos comprimidos em H.264 ou H.265, e calibração de câmera.

A decisão de separar as anotações de subtarefa dos episódios brutos é um detalhe importante. Isso permite que a comunidade revise, corrija ou expanda os rótulos sem precisar re-processar os dados de sensor. Um grupo de pesquisa que discorda da segmentação de subtarefas pode fornecer sua própria anotação; outro grupo pode adicionar anotações em idiomas diferentes ou com maior granularidade.

O repositório GitHub (amazon-far/abc) inclui código para download via huggingface_hub, processamento com a biblioteca mcap em Python e alinhamento por timestamp entre vídeo e estado articular. A stack é aberta do início ao fim.

US$ 70 milhões e o modelo de negócio da XDOF

A XDOF publicou o ABC-130k gratuitamente, mas não é uma organização sem fins lucrativos. O modelo de negócio é o que separa a empresa de um simples repositório de dados acadêmicos.

A XDOF opera uma rede de estações YAM para coleta contínua de dados. Empresas de robótica que precisam de dados para tarefas específicas — ou que querem dados coletados a partir de seu próprio hardware em sua própria configuração — podem contratar a XDOF para isso. O ABC-130k serve como demonstração da qualidade e da escala que a empresa consegue produzir.

O financiamento de US$ 70 milhões vai para expandir a frota de estações, automatizar mais etapas da pipeline de coleta e anotação, e construir ferramentas para que parceiros façam suas próprias contribuições ao corpus. O objetivo declarado é que o ABC-130k seja uma base que cresce — não uma publicação estática.

O que as equipes de pesquisa podem fazer com isso agora

O uso mais direto é pré-treinamento de políticas de controle. Modelos treinados em grandes corpora de teleoperação — como o RT-X do Google ou o Open X-Embodiment — demonstraram que o pré-treinamento em dados de outros robôs melhora a generalização quando fine-tuning é feito em hardware específico. O ABC-130k, por ser o maior conjunto desse tipo publicamente disponível, amplia esse potencial.

A presença de anotações de subtarefa abre outra frente: aprendizado de modelos hierárquicos, onde a política de alto nível escolhe qual subtarefa executar e a política de baixo nível executa os movimentos. Isso é relevante para tarefas longas como a montagem de peças, onde um único modelo de sequência a sequência tem dificuldade de capturar toda a estrutura temporal.

O acesso a hardware padronizado também facilita benchmarking. Equipes que têm braços YAM podem avaliar políticas treinadas no ABC-130k em hardware idêntico ao que gerou os dados — condição rara em robótica, onde a diversidade de hardware geralmente torna comparações entre grupos difíceis.

Perguntas Frequentes

O que é teleoperação em robótica?

É o controle remoto de um robô por um operador humano — geralmente via joystick, óculos de VR ou exoesqueleto. Em robótica de aprendizado, a teleoperação é usada para coletar demonstrações de comportamento correto que servem como dados de treinamento para políticas autônomas.

O que é manipulação bimanual?

Tarefas que exigem dois braços trabalhando em coordenação — como dobrar uma camiseta, abrir uma caixa ou montar peças que precisam ser seguradas por um braço enquanto o outro manipula. É mais difícil de aprender do que manipulação de um braço porque exige coordenação temporal entre os dois membros.

Preciso ter hardware YAM para usar o ABC-130k?

Não obrigatoriamente. Os dados podem ser usados para pré-treinamento em outros braços robóticos, especialmente se a política for suficientemente abstrata. Mas avaliações que exigem replicação exata dos episódios precisam de hardware compatível.

Qual a diferença do ABC-130k para o Open X-Embodiment?

O Open X-Embodiment é um esforço colaborativo de vários laboratórios, com hardware heterogêneo e formatos variados. O ABC-130k é homogêneo — mesmo hardware, mesmo formato, mesma pipeline de coleta — o que facilita o uso direto e a comparação entre políticas. É menor em número de plataformas mas mais consistente internamente.

compartilhar: