Editorial Robótica & RL

Projeto Ace: como um robô aprendeu a derrotar jogadores profissionais de tênis de mesa

A Sony AI usou aprendizado por reforço em três camadas e transferência direta de simulação para hardware real — sem fine-tuning adicional — para criar o primeiro sistema autônomo competitivo com jogadores profissionais num esporte popular.

Ponto Zero ·

O tênis de mesa é um problema técnico brutal. A bola viaja a até 150 km/h, gira a centenas de rotações por segundo, e o jogador tem menos de 200 milissegundos para decidir e executar o golpe. Elite humana significa processar informação visual, antecipar trajetórias, selecionar golpe e acionar a musculatura correta — tudo isso enquanto o oponente tenta esconder suas intenções. É um ambiente adversarial, de alta velocidade, cheio de incerteza.

O Ace, desenvolvido pela Sony AI no âmbito do Projeto Ace, conseguiu fazer isso contra jogadores profissionais. Os resultados foram publicados na capa da revista Nature em 2026 — uma publicação incomum para robótica, que indica o nível de rigor científico exigido para o trabalho ser aceito. Em março de 2026, o sistema derrotou três jogadores profissionais separados pelo menos uma vez cada.

O hardware que torna o problema tratável

Antes do aprendizado por reforço, há engenharia física. O Ace usa nove câmeras sincronizadas de alta velocidade e três sensores de visão baseados em eventos — tecnologia da Sony Semiconductor Solutions que detecta mudanças de luminosidade pixel a pixel, sem esperar pelo próximo quadro completo. Isso permite rastrear a bola a 200 Hz com precisão milimétrica e medir spin até 700 Hz.

A latência do sistema completo — da percepção à atuação — é de 20,2 milissegundos. Um jogador humano de elite leva aproximadamente 230 milissegundos para o mesmo ciclo. O robô é dez vezes mais rápido nessa medida.

O braço tem oito graus de liberdade (a maioria dos braços robóticos industriais tem seis) e foi construído em liga leve para suportar impactos repetidos de alta velocidade. A previsibilidade mecânica — a garantia de que o braço responde ao comando da política de forma consistente — foi identificada pelos pesquisadores como um fator crítico para a transferência bem-sucedida da simulação para o hardware real.

Aprendizado em três camadas: habilidade, tática e estratégia

O sistema de controle do Ace tem três níveis hierárquicos, cada um aprendido separadamente mas atuando em conjunto durante uma partida.

O nível de habilidade (skill) controla o movimento articular e a geração de golpes em tempo real. É o nível mais baixo, mais próximo do hardware, e precisa operar dentro das restrições de latência de 20ms.

O nível de tática decide onde colocar a bola e qual tipo de golpe executar em função do rali em curso — a posição do oponente, o padrão de golpes até ali, a velocidade da bola recebida.

O nível de estratégia funciona na escala do set ou da partida inteira. Ele adapta o estilo de jogo ao perfil do oponente: se o oponente defende bem o backhand, a estratégia eventualmente direciona mais bolas para lá.

A inovação técnica que permitiu que esse sistema aprendesse de forma eficaz foi o uso de um privileged critic durante o treinamento. O crítico — que é quem avalia as ações durante o RL — tinha acesso a informações perfeitas sobre o estado do jogo (posição exata da bola, spin preciso) que o sistema de controle real nunca teria. A política, no entanto, aprendeu a agir a partir de inputs de sensor reais. Isso forçou a política a desenvolver estimativas robustas do estado do mundo — e funcionou.

  • Latência: 20,2 ms (vs. ~230 ms de um jogador humano de elite)
  • Visão: 9 câmeras frame-based + 3 sensores de evento, rastreamento de bola a 200 Hz
  • Spin: medição até 700 Hz
  • Braço: 8 graus de liberdade, liga leve, design otimizado para impactos repetidos
  • Treinamento: inteiramente em simulação, transferido para hardware real sem fine-tuning adicional
  • Resultado: derrota de jogadores profissionais certificados pela ITTF; publicado na capa da Nature em 2026

Da simulação para o mundo real — sem ajuste

O Ace treinou inteiramente em simulação. Nenhuma trajetória de bola real foi usada para treinar a política inicial. A transferência direta para o hardware físico — sem fine-tuning em dados reais — é o resultado técnico mais impressionante do trabalho.

Para isso funcionar, os pesquisadores precisaram modelar com precisão a física da bola. Um obstáculo inesperado: os modelos de arrasto aerodinâmico da literatura superestimavam a desaceleração de bolas a alta velocidade. A equipe descobriu isso observando discrepâncias entre simulação e realidade em condições extremas, e refinou os modelos iterativamente.

A técnica de domain randomization — treinar com variação aleatória nos parâmetros físicos do simulador — ajudou a política a se tornar robusta a imprecisões residuais. Se a política aprende a jogar bem mesmo quando a massa da bola varia um pouco ou a elasticidade da mesa oscila, ela tem mais chance de funcionar numa mesa real com um braço real.

O que o Ace ainda não consegue

Um dos pesquisadores foi direto na entrevista publicada pela Sony: "performance de nível elite, mas não ainda o nível de campeões mundiais. Algumas pessoas ainda jogam melhor". O Ace derrota profissionais — mas não os melhores profissionais do mundo.

Smashes extremos — golpes de força máxima, quase horizontais — ainda causam discrepâncias entre a simulação e a realidade que o sistema não lida bem. O gap sim-to-real, mesmo após o refinamento, não é zero.

E há um limite estrutural: o Ace foi construído para tênis de mesa. Toda a engenharia de sensor, a física da bola, o design do braço — são específicos para esse problema. A generalização para outros esportes ou outras tarefas físicas exigiria recomeçar grande parte do processo.

Por que isso importa além do tênis de mesa

O Ace não é uma curiosidade esportiva. Ele demonstra que aprendizado por reforço em simulação, com modelagem física cuidadosa, consegue produzir políticas que funcionam em hardware real em tarefas físicas de alta precisão e alta velocidade — sem depender de dados coletados manualmente no mundo real.

Esse resultado tem implicações diretas para robótica industrial, cirurgia robótica e sistemas de interação física em geral. O custo de coletar dados de teleopepação — como mostra o ABC-130k — é enorme. Um método que aprende em simulação e transfere diretamente é, em princípio, muito mais escalável. O Ace não prova que isso funciona em qualquer domínio, mas prova que funciona num domínio genuinamente difícil.

Perguntas Frequentes

O que é aprendizado por reforço (RL)?

É uma abordagem de aprendizado de máquina em que um agente aprende a agir num ambiente a partir de recompensas — feedback positivo quando age bem, negativo quando age mal — sem precisar de exemplos explícitos de comportamento correto. No Ace, o agente aprende a maximizar a chance de ganhar pontos contra um oponente simulado.

O que é domain randomization?

Uma técnica de treinamento em simulação que varia aleatoriamente parâmetros físicos do ambiente durante o treinamento — massa dos objetos, atrito, elasticidade — para forçar a política a ser robusta a variações que existem no mundo real, mesmo que o simulador não modele tudo com perfeição.

O Ace usa câmeras normais ou algo especial?

Usa ambos. As câmeras frame-based (normais, mas de alta velocidade) são complementadas por sensores de visão baseados em eventos — tecnologia que registra mudanças pixel a pixel sem esperar um quadro completo, permitindo capturar spin e trajetória em escalas de tempo impossíveis para câmeras convencionais.

Os resultados foram verificados por árbitros independentes?

Sim. Os testes foram realizados sob regras oficiais da ITTF (federação internacional de tênis de mesa) com árbitros licenciados, e publicados na Nature após revisão por pares — o padrão mais rigoroso disponível para publicação científica.

compartilhar: