artigo · Robótica & RL

Aprendizado por Reforço Explicado

Ninguém aprende a andar de bicicleta lendo um manual. Cai, ajusta, tenta de novo. Aprendizado por reforço é a tentativa de dar essa mesma forma de aprender a uma máquina.

A maioria dos modelos de IA aprende com exemplos rotulados: aqui está a foto, aqui está a etiqueta "gato". O aprendizado por reforço (em inglês, reinforcement learning, ou RL) funciona diferente. Não há gabarito. Há um objetivo, um ambiente e a liberdade de errar até descobrir o que funciona.

As quatro peças do jogo

Todo problema de RL se descreve com os mesmos quatro elementos:

Agente: quem decide e age — o programa que está aprendendo.
Ambiente: o mundo em que o agente atua, seja um jogo, um simulador ou um robô físico.
Ação: o que o agente pode fazer a cada momento — mover uma peça, aplicar um torque, escolher uma palavra.
Recompensa: um número que diz se a coisa foi boa ou ruim. É o único sinal que guia o aprendizado.

O agente observa o estado do ambiente, escolhe uma ação, recebe uma recompensa e um novo estado, e repete. O objetivo não é maximizar a recompensa imediata, mas a soma das recompensas ao longo do tempo — o que obriga o agente a pensar em consequências futuras.

Aprender por tentativa e erro

No começo, o agente age praticamente ao acaso. Aos poucos, ele descobre que certas sequências de ações rendem mais recompensa e passa a repeti-las. Esse processo de ajustar o comportamento em função do retorno é o coração do método. Não há ninguém dizendo "faça isto"; há apenas o feedback do ambiente, lento e indireto.

O grande desafio é o crédito temporal: quando uma recompensa chega no fim de uma longa sequência, qual ação lá atrás foi a responsável? Atribuir mérito e culpa às decisões certas, ao longo do tempo, é parte do que torna o RL difícil.

Exploração contra explotação

Aqui mora a tensão central do RL. Explotar é repetir o que já se sabe que funciona. Explorar é arriscar algo novo, que pode ser melhor — ou pior. Um agente que só explota fica preso a uma estratégia medíocre; um que só explora nunca consolida o que aprendeu.

É o dilema de quem sempre pede o mesmo prato no restaurante: a aposta segura garante uma refeição boa, mas talvez o prato perfeito esteja num item do cardápio que você nunca ousou pedir. Calibrar esse equilíbrio é uma arte do RL.

Agente + ambiente + ação + recompensa: o quarteto que define qualquer problema de RL.
Sem gabarito: o agente aprende do feedback, não de respostas prontas.
Exploração vs. explotação: arriscar o novo contra repetir o que funciona.
Recompensa atrasada: descobrir qual ação passada mereceu o crédito é o nó do problema.

Os marcos que ficaram famosos

O RL ganhou o mundo pelos jogos. Sistemas aprenderam a jogar dezenas de títulos de Atari só observando a tela e o placar. Em 2016, o AlphaGo derrotou um campeão mundial de Go — um jogo com mais posições possíveis do que átomos no universo observável, considerado fora do alcance das máquinas por décadas. Pouco depois, o AlphaZero aprendeu Go, xadrez e shogi do zero, jogando apenas contra si mesmo, sem nenhum conhecimento humano além das regras.

Jogos são o laboratório ideal do RL porque a recompensa é clara (ganhar) e o ambiente é barato de simular. O mundo real raramente é tão gentil.

O RL que mora dentro dos LLMs

Você talvez use RL todos os dias sem saber. O RLHF (reinforcement learning from human feedback, ou aprendizado por reforço com feedback humano) é a técnica que ajusta modelos de linguagem para serem úteis e seguros. Humanos comparam respostas, indicando qual é melhor; esse julgamento vira um sinal de recompensa que afina o comportamento do modelo. É, em boa parte, o que dá ao assistente seu tom e suas recusas. O mesmo princípio do quarteto — agente, ambiente, ação, recompensa — reaparece aqui, com a "recompensa" destilada da preferência humana.

Onde o método trava

O RL é poderoso, mas tem armadilhas conhecidas. A pior delas é a recompensa mal definida: o agente otimiza exatamente o que você mediu, não o que você queria. Se a recompensa premia o número errado, ele encontra atalhos absurdos — o fenômeno do reward hacking. Some-se a isso o custo de amostras: bons agentes podem precisar de milhões de tentativas, viável num simulador, caríssimo no mundo físico. Por isso o RL brilha em jogos e em ambientes simuláveis, e enfrenta tanta dificuldade na robótica.

Perguntas Frequentes

Qual a diferença entre RL e aprendizado supervisionado?

No supervisionado, o modelo aprende de exemplos com a resposta certa anexada. No RL, não há resposta certa: o agente age, recebe uma recompensa e descobre sozinho, por tentativa e erro, qual comportamento maximiza o retorno ao longo do tempo.

O que é exploração contra explotação?

É o dilema entre arriscar ações novas, que podem render mais, e repetir o que já se sabe que funciona. Um bom agente equilibra os dois: explora o suficiente para descobrir boas estratégias e explota o bastante para colher recompensa.

O RLHF dos LLMs é o mesmo aprendizado por reforço dos jogos?

Compartilha a mesma estrutura — agente, ação e recompensa —, mas a recompensa vem do julgamento humano sobre qual resposta é melhor, em vez de um placar de jogo. É uma aplicação específica do RL para alinhar o comportamento de modelos de linguagem.

Por que o RL é difícil de usar fora dos jogos?

Porque exige muitas tentativas e uma recompensa bem definida. Em jogos, tentativas são baratas e o objetivo é claro. No mundo físico, cada tentativa custa tempo e risco, e traduzir o que se quer numa recompensa correta é surpreendentemente difícil.

← voltar para o guia completo

Acompanhe Robótica & RL no radar

Veja os papers, modelos e datasets de Robótica & RL em alta agora no Hugging Face.

Abrir radar de Robótica & RL