Entity

Universal Activation Verbalizer: A Unified Framework for Cross-Model Activation Explanation

Activation verbalization explains hidden representations in natural language, but existing methods are mostly limited to self-explanation, where each model explains only its own activations. We introduce Universal Activation Verbalizer (UAV), a framework that uses a shared decoder to explain activations from heterogeneous donor models. UAV learns a lightweight adapter that converts donor activations into soft tokens in decoder's embedding space, and further supports adapter-only transfer by reus

Paper · arXiv

cs.CL

Authors: Haiyan Zhao, Zirui He, Guanchu Wang, Ali Payani, Yingcong Li + 1 more
Published: 2026-05-25
Categories: cs.CLcs.LG

Abstract ↗

via arXiv · 2605.25903