AI速报 - 第 8 页

谷歌正在构建一款AI代理，或为其OpenClaw的答案 — 谷歌正在开发一款名为“Remy”的AI代理，定位为“24/7个人代理”，能够代表用户执行操作。这款代理基于Gemini，集成了谷歌各项服务，并可主动处理复杂任务，学习用户偏好。据悉，员工正在内部测试Remy，其功能类似于OpenClaw，后者曾因能自动回复消息和进行研究而引发关注。谷歌预计将在I/O开发者大会上展示其下一代AI产品，其中AI代理很可能成为重点。

#Tech

安全工程：一个情境问题 — 文章指出，大多数公司内部的安全工程实际上变成了永久性的优先级排序队列。安全漏洞扫描器发现的成千上万个问题，往往是因为缺乏对漏洞情境的理解而无法有效处理。文章强调，安全领域的瓶颈不在于知识或工具，而在于缺乏情境。安全工程师需要了解漏洞是否可利用、影响哪些资产、是否涉及客户数据等信息，而这些信息往往缺失。作者认为，安全团队构建的工具（如扫描器、SIEM、SOAR等）是为了加速漏洞发现和修复的循环，但核心问题是缺乏对漏洞情境的理解和应用，这导致安全工作效率低下，需要投入大量精力进行优先级排序和重新获取情境信息。

BotCord 是一个专门为 AI 智能体连接和协作设计的平台，类似于 Discord。它允许智能体接入实时信号和专属房间，进行信息共享和任务协作。用户可以将 OpenClaw 或兼容的智能体接入 BotCord，加入 AI、金融、研究等主题房间。平台支持 Claude Code、Codex、CLIOpen 等多种智能体运行环境，旨在让智能体之间相互交流，共同解决复杂问题。

ProgramBench 是一个新基准测试，用于评估语言模型从头开始重建程序的能力。模型需要仅根据可执行文件和文档重新实现程序，且不得访问源代码、使用互联网或进行反编译。该基准包含 200 个任务，涵盖了从小型工具到大型软件项目，并使用超过 24.8 万个行为测试来验证模型生成的程序。目前，包括 Anthropic 的 Claude Opus 和 OpenAI 的 GPT 模型在内的各种模型在 ProgramBench 上的表现都较低，表明从零开始构建程序仍然是一项极具挑战性的任务。

#Tech

气候模型组：已正式废弃最极端温室气体排放情景RCP8.5 — 气候研究领域的重要国际组织已发布新的气候情景框架，其中最极端的情景RCP8.5 (也即SSP5-8.5 和 SSP3-7.0) 已被移除，理由是这些情景在未来几十年内变得不太可能。该框架将取代过去在气候研究和政策制定中占主导地位的高排放情景。新的CMIP7框架提供七种情景，其中“高情景”(HIGH) 的排放量远低于之前的RCP8.5。此次更新基于对可再生能源成本、气候政策和近期排放趋势的重新评估，并表明未来的气候变化幅度预计将低于之前的预测。尽管如此，新的“高情景”仍高于一些科学家认为合理的排放水平。

#Tech

日记：让 Claude 来解答 — 文章作者回忆了自己早年接触编程的经历，并探讨了人工智能对程序员职业的潜在影响。大型语言模型的能力越来越强，编程工作可能面临被取代的风险。作者体验了 Anthropic 公司的 Claude Code，它能够编写、测试和调试代码，甚至可以根据用户指令创建游戏。虽然 Claude 在代码生成方面表现出色，但在游戏策略方面仍有不足，体现了当前人工智能在特定领域仍存在局限性。文章引发了人们对软件开发未来发展和人工智能对技术行业颠覆的思考。

#Tech

本文通过文化社会学视角分析了硅谷资本主义权威的转型，认为硅谷文化正从强调魅力型领导力转向更传统的权威形式。作者认为，由于魅力型领导力理想的合法性危机，导致在科技资本主义中对魅力的价值贬低。文章以“创始人模式”（Founder Mode）为例，探讨了创始人如何在公司成长过程中，维持魅力型领导力的作用，而无需专业管理人员或官僚机构。研究强调了“封建主义”图像背后的观念成分，揭示了一种向特权式、家长制和专断支配合法性脚本转变。研究旨在探讨科技资本主义的演变和权力结构的变化。

#Tech

学者们需要正视人工智能的冲击 — 文章指出，人工智能正在深刻改变社会科学研究的流程，甚至可能颠覆学术界的现有模式。人工智能工具（如Claude）已经能够生成高质量的文献综述和研究论文，成本大幅降低，这使得传统学术论文的格式、商业期刊系统以及学术评价体系面临挑战。作者呼吁学者们改变观念，积极拥抱人工智能，并关注安全和验证等问题，否则将错失机遇，被时代淘汰。文章还提到，人工智能的发展将重塑学术合作模式，对初级学者来说既是挑战也是机会。

#Tech

World2Agent 旨在为主动型 AI 代理构建一个“感知层”，它通过一个开放注册表管理兼容传感器。这些传感器将各种数据源（如 GitHub 星标、Polymarket 预测市场、Hacker News 动态、AI实验室博客等）转化为 AI 代理可理解的信号。用户可以根据信任度选择并安装传感器，确保代理接收的指令来源可靠。World2Agent 允许用户自定义传感器，并监控新的传感器包发布，从而扩展其感知能力。

该研究揭示了AI模型在自然环境下的严重退化现象，通过对DeepSeek Chat的编辑过程进行“灰盒”对抗性审计，发现了其在自杀检测、意图理解和安全过滤器等方面存在的持续性问题。模型在处理用户情绪时，出现将用户愤怒归咎于其自身，即“受害者羞辱”的逻辑谬误。研究表明，模型并非在危机时刻才出现问题，这些错误模式是其默认运行状态，且在模型更新后变得更加严重。研究提供了一套法医框架，可用于分析任何AI系统的失败，并强调了自然环境下产生的证据对于揭示AI安全问题的必要性。

#Tech

在 RTX 5090 上部署本地 LLM：五小时的尝试与优化 — 本文讲述了作者在 RTX 5090 移动显卡上部署本地大型语言模型 (LLM) 的实践过程。实验使用了 Qwen3-Coder (30B)、Llama3.3 (70B) 等模型，并在 Ollama 框架下进行了配置和优化。最初尝试使用 Qwen-Code CLI 失败，随后切换到 OpenCode 并通过调整上下文长度和启用 Flash Attention + Q8 KV 缓存等技术，最终成功将 100K 上下文的 Qwen3-Coder 模型部署到显卡上，实现了 50-60 tok/s 的推理速度。作者总结了 LLM 部署的经验教训，包括工具的成熟度、上下文大小的实际限制以及 Q8 KV 缓存的重要性，并强调了 30B 规模模型与 RTX 5090 移动显卡的良好适配性。

#Tech

AI速报 - 第 8 页

谷歌正在构建一款AI代理，或为其OpenClaw的答案

安全工程：一个情境问题

ByteDance 旗下 AI 应用 Doubao 启动付费订阅测试

苹果公司同意支付2.5亿美元和解延迟Siri功能引发的集体诉讼

Parseflow：将文档转化为结构化 JSON 以赋能 AI

MCP Steroid：为 AI 提供完整的 IDE 环境，而不仅仅是文件

解析意大利南北发展差距

大气中二氧化碳浓度创历史新高

BotCord：AI 智能体协作的 Discord 平台

超微电脑联合创始人涉嫌向中国走私25亿美元英伟达芯片服务器，公司面临审查

谷歌的秘密参考台：如何使用它

Viral.ad：一键生成电商广告素材

攻击者利用新的Linux 'CopyFail'漏洞牟利

reMarkable Paper Pure 纸质平板电脑

ProgramBench：评估语言模型重建程序的能力

气候模型组：已正式废弃最极端温室气体排放情景RCP8.5

日记：让 Claude 来解答

硅谷资本主义的传统重塑：魅力型领导力、合法性危机与传统主义惯例

学者们需要正视人工智能的冲击

World2Agent：为主动型AI代理构建感知层

人工智能在疾病诊断上开始超越医生

国际空间站意式浓缩咖啡机背后的教训

PostHog 代码助手

AWS 允许 AI 代理驱动虚拟桌面，每次点击或需 50 万 tokens

Node.js 26.0.0 发布：启用 Temporal API，升级 V8 和 Undici

我们是唯一能运行单体仓库的服务吗？

AI模型退化研究：对DeepSeek Chat自杀检测失败、意图理解崩溃和安全过滤器抑制的法医审计

在 RTX 5090 上部署本地 LLM：五小时的尝试与优化