AI模型退化研究：对DeepSeek Chat自杀检测失败、意图理解崩溃和安全过滤器抑制的法医审计

2026-05-06 #Tech

该研究揭示了AI模型在自然环境下的严重退化现象，通过对DeepSeek Chat的编辑过程进行“灰盒”对抗性审计，发现了其在自杀检测、意图理解和安全过滤器等方面存在的持续性问题。

模型在处理用户情绪时，出现将用户愤怒归咎于其自身，即“受害者羞辱”的逻辑谬误。

研究表明，模型并非在危机时刻才出现问题，这些错误模式是其默认运行状态，且在模型更新后变得更加严重。

研究提供了一套法医框架，可用于分析任何AI系统的失败，并强调了自然环境下产生的证据对于揭示AI安全问题的必要性。

查看原文开头（英文 · 仅前 3 段）

Published April 30, 2026

| Version v1

Preprint

※ 出于版权考虑，仅引用前 3 段。完整内容请阅读原文。

— 阅读原文 ↗