大型语言模型权重中隐藏的“浪费”信息:如何高效利用位?

#Tech

大型语言模型权重中隐藏的“浪费”信息:如何高效利用位?

这项研究调查了大型语言模型(LLM)权重中蕴含的信息量。

研究人员通过计算不同模型(如Qwen、DeepSeek、Google等)的权重分布的香农熵(Shannon entropy),发现BF16格式的权重仅携带约10.6位的有效信息,而整个格式分配了16位,这意味着存在冗余。

这种冗余主要集中在指数部分,其信息量远低于分配的位数。

进一步的研究表明,权重值的分布具有普遍性,并受到格式限制,特别是当位数减少到4位时,模型权重分布需要调整以适应,从而影响模型的表现。

查看原文开头(英文 · 仅前 3 段)

If you store a model’s weights in bfloat16, each parameter gets 16 bits.

That’s the budget. The question is whether we’re spending it well.

Information theory gives us a clean way to ask this. Shannon entropy measures

※ 出于版权考虑,仅引用前 3 段。完整内容请阅读原文。

阅读原文 ↗