Protegendo Agentes de LLM contra o Desalinhamento por meio de Análise de Proveniência

arXiv:2607.01236v1 Tipo de Anúncio: novo Resumo: À medida que agentes de LLM ganham acesso cada vez maior a ferramentas poderosas, garantir que suas ações estejam alinhadas com a intenção do usuário torna-se algo crítico. Quando a invocação de ferramenta proposta por um agente se desvia da intenção do usuário — um fenômeno chamado de desalinhamento —, isso pode levar a consequências prejudiciais que são difíceis de desfazer. As barreiras de proteção em tempo de execução existentes dependem de um paradigma de LLM-como-juiz que carece de um arcabouço sistemático para raciocinar sobre o alinhamento, muitas vezes produ...

arXiv cs.CL ·Yining She, Yiliang Liang, Eunsuk Kang ·
compartilhar: