Paper LLMs & Texto Dados & Embeddings

SafePyramid: A Hierarchical Benchmark for In-context Policy Guardrailing

SafePyramid benchmark evaluates guardrail systems' ability to identify safety violations through in-context policy specification across multiple domains and complexity levels.

Hugging Face · Daily Papers ·Jiacheng Zhang, Haoyu He · 29 de janeiro de 2026 ·▲ 3 upvotes

Este artigo está em destaque na seleção diária de papers do Hugging Face, curada pela comunidade de pesquisa em IA.

Autores: Jiacheng Zhang, Haoyu He, Sen Zhang, Shen Wang, Xiaolei Xu, Yuhao Sun

3 upvotes da comunidade
Temas: guardrails, in-context policy guardrailing, safety benchmark, policy specifications, multi-turn conversations, natural-language rules

Resumo

Resumo original (em inglês), extraído do paper:

SafePyramid benchmark evaluates guardrail systems' ability to identify safety violations through in-context policy specification across multiple domains and complexity levels.

Onde ler

Ver no Hugging Face

// relacionados

SafePyramid: A Hierarchical Benchmark for In-context Policy Guardrailing

Resumo

Onde ler

Leia também

nvidia/Nemotron-Labs-TwoTower-30B-A3B-Base-BF16

OpenClaw is finally available on Android and iOS

Claude Science is Anthropic’s newest flagship product

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8: Agentic Coding Benchmarks, API Pricing, and Cost-Performance Tradeoffs Compared