大型语言模型权重中隐藏的“浪费”信息：如何高效利用位？

2026-05-05 #Tech

这项研究调查了大型语言模型（LLM）权重中蕴含的信息量。

研究人员通过计算不同模型（如Qwen、DeepSeek、Google等）的权重分布的香农熵（Shannon entropy），发现BF16格式的权重仅携带约10.6位的有效信息，而整个格式分配了16位，这意味着存在冗余。

这种冗余主要集中在指数部分，其信息量远低于分配的位数。

进一步的研究表明，权重值的分布具有普遍性，并受到格式限制，特别是当位数减少到4位时，模型权重分布需要调整以适应，从而影响模型的表现。

查看原文开头（英文 · 仅前 3 段）

If you store a model’s weights in bfloat16, each parameter gets 16 bits.

That’s the budget. The question is whether we’re spending it well.

Information theory gives us a clean way to ask this. Shannon entropy measures

※ 出于版权考虑，仅引用前 3 段。完整内容请阅读原文。

— 阅读原文 ↗

阅读原文 ↗