SemHash-LLM: Um Framework de Hashing Semântico Multigranularidade para Deduplicação de Documentos

arXiv:2607.01601v1 Tipo de Anúncio: novo Resumo: A deduplicação de documentos em larga escala deve preservar a equivalência semântica mantendo-se eficiente sobre corpora massivos. Apresentamos o SemHash LLM, um framework multigranularidade que unifica hashing por projeção semântica, MinHash ponderado por atenção, aprendizado contrastivo de fronteiras e adjudicação seletiva baseada em LLM. O método combina sinais em nível de caractere, token e documento por meio de fusão com controle por portas (gated fusion) e, em seguida, aplica um pipeline de filtragem em cascata para eficiê...

arXiv cs.AI ·Xinyi Fang, Kejian Tong, Jiabei Liu, Tao Ning, Yuhang He ·
compartilhar: