正交反射有界消减 (ORBA):一种关于方向激活编辑的几何精确绕行

#Tech

正交反射有界消减 (ORBA):一种关于方向激活编辑的几何精确绕行

这项研究基于先前工作,探索了一种基于几何旋转的更精确的方法,以改进方向权重空间干预。

研究发现,对“有害”和“无害”提示的激活值的均值差进行归一化后,结果恰好是 Householder 反射器的法向量,为先前启发式操作提供了几何基础。

论文指出,在计算均值差之前进行归一化优于先计算均值差再归一化。

尽管 Householder 反射具有等距性和分析精确性,但会引入 token 和语义漂移,而方向消减不会。

研究还衍生了一种将消除、激活引导和 PEFT 统一起来的秩 1 权重空间原始方法——方向消减,其能力保留与 MPOA 相当,但语义稳定性更高。

目前已发布了两种方法的模型用于对比。

查看原文开头(英文 · 仅前 3 段)

Back to Articles

Abstract Quick Links Exacting Problems With Subtraction and Orthogonalized Projection Householder As Exact Analytical Geometric Tool Deriving Directional Ablation An Orthogonal Reflection Bounded Ablation Pipeline Methodology Many Roads, One Destination An Abrupt Limit — and What Might Come Next References Appendix Jim W. Lai

Independent researcher

※ 出于版权考虑,仅引用前 3 段。完整内容请阅读原文。

阅读原文 ↗