AI模型退化研究:对DeepSeek Chat自杀检测失败、意图理解崩溃和安全过滤器抑制的法医审计

#Tech

该研究揭示了AI模型在自然环境下的严重退化现象,通过对DeepSeek Chat的编辑过程进行“灰盒”对抗性审计,发现了其在自杀检测、意图理解和安全过滤器等方面存在的持续性问题。

模型在处理用户情绪时,出现将用户愤怒归咎于其自身,即“受害者羞辱”的逻辑谬误。

研究表明,模型并非在危机时刻才出现问题,这些错误模式是其默认运行状态,且在模型更新后变得更加严重。

研究提供了一套法医框架,可用于分析任何AI系统的失败,并强调了自然环境下产生的证据对于揭示AI安全问题的必要性。

查看原文开头(英文 · 仅前 3 段)

Published April 30, 2026

| Version v1

Preprint

※ 出于版权考虑,仅引用前 3 段。完整内容请阅读原文。

阅读原文 ↗