Blog
LLMs & Texto
SemHash-LLM: Um Framework de Hashing Semântico Multigranularidade para Deduplicação de Documentos
arXiv:2607.01601v1 Tipo de Anúncio: novo Resumo: A deduplicação de documentos em larga escala deve preservar a equivalência semântica mantendo-se eficiente sobre corpora massivos. Apresentamos o SemHash LLM, um framework multigranularidade que unifica hashing por projeção semântica, MinHash ponderado por atenção, aprendizado contrastivo de fronteiras e adjudicação seletiva baseada em LLM. O método combina sinais em nível de caractere, token e documento por meio de fusão com controle por portas (gated fusion) e, em seguida, aplica um pipeline de filtragem em cascata para eficiê...
arXiv cs.AI
·Xinyi Fang, Kejian Tong, Jiabei Liu, Tao Ning, Yuhang He
·
// relacionados
Leia também
Blog
O complicado problema do Claude Code com a China envolve proibições dos dois lados do Pacífico
Blog
AI Security Institute do Reino Unido descobre que benchmarks padrão subestimam sistematicamente o que agentes de IA realmente conseguem fazer
Dataset
ByteDance-Seed/EdgeBench
Blog