多项式自编码器
该研究提出了一种新的向量压缩方法,称为多项式自编码器 (Poly-AE)。
它在主成分分析 (PCA) 的基础上,添加了一个二次多项式解码器,以捕捉嵌入向量中线性 PCA 无法触及的非线性尾部信息。
该方法无需迭代优化,只需一次性计算即可完成。
实验结果表明,Poly-AE 在压缩嵌入向量的同时,能够有效提升检索性能,在某些模型上,其性能可接近原始模型的水平。
该方法尤其适用于具有较强“锥形效应”(cone effect)的模型,能够更好地利用非线性信息。
查看原文开头(英文 · 仅前 3 段)
The most direct way to compress an embedding (other than quantization)
is to fit PCA on the corpus and keep the top-d eigenvectors. It works, but PCA is a linear
projection, and neural-network embeddings on the sphere are
※ 出于版权考虑,仅引用前 3 段。完整内容请阅读原文。