大型语言模型权重中隐藏的“浪费”信息:如何高效利用位?
这项研究调查了大型语言模型(LLM)权重中蕴含的信息量。
研究人员通过计算不同模型(如Qwen、DeepSeek、Google等)的权重分布的香农熵(Shannon entropy),发现BF16格式的权重仅携带约10.6位的有效信息,而整个格式分配了16位,这意味着存在冗余。
这种冗余主要集中在指数部分,其信息量远低于分配的位数。
进一步的研究表明,权重值的分布具有普遍性,并受到格式限制,特别是当位数减少到4位时,模型权重分布需要调整以适应,从而影响模型的表现。
查看原文开头(英文 · 仅前 3 段)
If you store a model’s weights in bfloat16, each parameter gets 16 bits.
That’s the budget. The question is whether we’re spending it well.
Information theory gives us a clean way to ask this. Shannon entropy measures
※ 出于版权考虑,仅引用前 3 段。完整内容请阅读原文。