AI速报 - 第 8 页

谷歌正在构建一款AI代理,或为其OpenClaw的答案

谷歌正在构建一款AI代理,或为其OpenClaw的答案
谷歌正在开发一款名为“Remy”的AI代理,定位为“24/7个人代理”,能够代表用户执行操作。这款代理基于Gemini,集成了谷歌各项服务,并可主动处理复杂任务,学习用户偏好。据悉,员工正在内部测试Remy,其功能类似于OpenClaw,后者曾因能自动回复消息和进行研究而引发关注。谷歌预计将在I/O开发者大会上展示其下一代AI产品,其中AI代理很可能成为重点。

#Tech

安全工程:一个情境问题

安全工程:一个情境问题
文章指出,大多数公司内部的安全工程实际上变成了永久性的优先级排序队列。安全漏洞扫描器发现的成千上万个问题,往往是因为缺乏对漏洞情境的理解而无法有效处理。文章强调,安全领域的瓶颈不在于知识或工具,而在于缺乏情境。安全工程师需要了解漏洞是否可利用、影响哪些资产、是否涉及客户数据等信息,而这些信息往往缺失。作者认为,安全团队构建的工具(如扫描器、SIEM、SOAR等)是为了加速漏洞发现和修复的循环,但核心问题是缺乏对漏洞情境的理解和应用,这导致安全工作效率低下,需要投入大量精力进行优先级排序和重新获取情境信息。

#Tech

ByteDance 旗下 AI 应用 Doubao 启动付费订阅测试

ByteDance 旗下 AI 应用 Doubao 启动付费订阅测试
ByteDance 正在其 AI 应用 Doubao 中测试付费订阅模式,提供标准版(68 元/月)、高级版(200 元/月)和专业版(500 元/月)三个方案。付费订阅将主要面向需要高算力处理的场景,例如 PowerPoint 生成、数据分析和视频制作。免费版本仍将保留,用于基础日常使用。此举反映了中国科技公司加速将 AI 应用商业化,以应对行业竞争的趋势。

#Tech

苹果公司同意支付2.5亿美元和解延迟Siri功能引发的集体诉讼

苹果公司同意支付2.5亿美元和解延迟Siri功能引发的集体诉讼
苹果公司同意支付2.5亿美元和解集体诉讼,指控其在推广iPhone 16时虚假宣传Siri的功能。此前,苹果展示了更智能的Apple Intelligence版本Siri,但在推出后推迟了相关功能的发布。此案指控苹果误导消费者,导致消费者购买了存在缺陷或功能虚报的设备。 苹果公司表示,此举是为了专注于产品和服务开发,并强调自2024年以来已推出多种Apple Intelligence功能。符合条件的iPhone 15和iPhone 16用户可以获得每设备最高95美元的赔偿。

#Tech

Parseflow:将文档转化为结构化 JSON 以赋能 AI

Parseflow:将文档转化为结构化 JSON 以赋能 AI
Parseflow 是一种无需存储、完全安全的文档处理工具,能够将上传的文档分割成结构化的 JSON 块。它适用于 LLM (大型语言模型) 流水线和文档处理,可以将 PDF 或文本文件转化为包含文本内容、索引以及元数据的 JSON 结构。用户可以利用 Parseflow 构建 RAG (检索增强生成) 流水线、创建基于文档的聊天机器人、优化 LLM 性能,并减少 token 浪费,其 API 简单且输出结构可预测。

#Tech

MCP Steroid:为 AI 提供完整的 IDE 环境,而不仅仅是文件

MCP Steroid:为 AI 提供完整的 IDE 环境,而不仅仅是文件
MCP Steroid 是一款 IntelliJ 插件,它将 JetBrains IDE 的 IDE API、可视化状态和运行时环境暴露给 AI 代理。通过让 AI 代理访问 IDE 的功能,如重构、调试、代码检查和测试执行,能够显著提升 AI 代理的效率,测试结果显示速度提升可达 54%。MCP Steroid 的长期目标是构建原生 IDE 基础设施,以支持自主工程流程和代理式体验。该插件支持 Claude、GPT、Gemini、Codex CLI、Cursor、OpenCode 等兼容 MCP 协议的客户端,并提供快速构建自定义 AI 技能的功能,无需插件开发。

#Tech

解析意大利南北发展差距

解析意大利南北发展差距
文章探讨了意大利北部和南部之间显著的发展差距。最初的解释主要归因于南北方在地方自治、合作社和参与式政治方面的历史差异,这些因素影响了腐败程度、信任感和集体行动能力。然而,更深入的分析指出,疟疾是导致这些社会资本差异的根本原因,促使南部地区形成了大土地所有制和地主统治,进而阻碍了经济发展。此外,中世纪的自治传统以及后续的政治力量和教育状况也起到了关键作用,而土地集中和地主权力对民主化和发展产生了负面影响。研究表明,历史上的疾病环境塑造了农业组织形式和土地所有制格局,从而间接影响了工业发展和现代化进程。

#Tech

大气中二氧化碳浓度创历史新高

大气中二氧化碳浓度创历史新高
美国国家海洋和大气管理局(NOAA)的夏威夷毛纳罗亚天文台观测数据显示,2024年4月大气中的二氧化碳浓度达到创纪录的每百万分子数(ppm)431,这是令人担忧的信号,表明全球变暖趋势持续。气候科学家表示,虽然这一数据并不意外,但凸显了二氧化碳浓度持续上升的问题。值得关注的是,该天文台面临预算削减的风险,而它长期以来一直在监测大气中二氧化碳水平。尽管美国在2023年和2024年排放量有所减少,但2025年这一趋势已逆转,部分原因是人工智能数据中心的电力需求增加。

#Tech

BotCord:AI 智能体协作的 Discord 平台

BotCord 是一个专门为 AI 智能体连接和协作设计的平台,类似于 Discord。它允许智能体接入实时信号和专属房间,进行信息共享和任务协作。用户可以将 OpenClaw 或兼容的智能体接入 BotCord,加入 AI、金融、研究等主题房间。平台支持 Claude Code、Codex、CLIOpen 等多种智能体运行环境,旨在让智能体之间相互交流,共同解决复杂问题。

#Tech

超微电脑联合创始人涉嫌向中国走私25亿美元英伟达芯片服务器,公司面临审查

超微电脑联合创始人涉嫌向中国走私25亿美元英伟达芯片服务器,公司面临审查
超微电脑预计本季度营收可达400亿美元,但公司正面临两项重大问题。首要问题是联合创始人Yih-Shyan Liaw(又称Wally Liaw)被指控通过东南亚空壳公司向中国非法转移了价值25亿美元、装载英伟达芯片的服务器。据指控,Liaw策划了一个复杂的骗局,包括伪造服务器和更换运输标签以欺骗审计员。目前,超微电脑已启动内部调查,并聘请了律师事务所Munger, Tolles & Olson和咨询公司AlixPartners,司法部和证券交易委员会也将密切关注调查结果。

#Tech

谷歌的秘密参考台:如何使用它

谷歌的秘密参考台:如何使用它
谷歌搜索结果正面临着搜索引擎优化和AI摘要的影响,用户点击率大幅下降。谷歌已经开始通过AI生成摘要直接回答问题,而不再直接提供原始网页链接。为了摆脱谷歌算法的控制,用户可以通过一些高级搜索技巧来获得更精准的结果。这些技巧包括使用`site:`限定域名、`number ranges`设置数值范围、`Verbatim`模式进行精确匹配、`minus sign`排除关键词、`filetype:`限定文件类型、`intitle: “index of”` 查找公开文件目录和`before: after:`设置时间范围等。这些功能能够帮助用户绕过搜索引擎优化内容,找到更原始、更真实的信息,就像使用传统的参考台一样。

#Tech

Viral.ad:一键生成电商广告素材

Viral.ad:一键生成电商广告素材
Viral.ad 是一款面向电商团队的工具,只需粘贴产品链接,即可在 TikTok、Meta、YouTube、Google、Amazon 等平台生成用于广告测试的素材。该平台利用 AI 技术自动抓取产品信息,并提供多种广告格式,例如 UGC 视频、社交广告和横幅广告。 用户只需 1 美元即可获得首次广告测试,之后每个广告的成本约为 1.5 美元,远低于传统广告制作费用。 该服务提供多种套餐选择,并提供免费重新生成服务,确保广告素材符合需求。

#Tech

攻击者利用新的Linux 'CopyFail'漏洞牟利

攻击者利用新的Linux 'CopyFail'漏洞牟利
美国网络安全局(CISA)警告称,一种名为“CopyFail”的新Linux内核漏洞(CVE-2026-31431)已被攻击者利用。该漏洞允许低权限用户通过修改他们只能读取的数据来获取系统完全控制权,从而实现特权提升。Theori安全公司使用AI驱动的渗透测试平台Xint发现并报告了该漏洞,并发布了概念验证(PoC)漏洞利用代码。该漏洞影响到2017年以来构建的几乎所有主流Linux内核版本,Microsoft已确认已观察到攻击活动,并敦促联邦机构在两周内补丁,CISA已将其添加到已利用漏洞目录。

#Tech

reMarkable Paper Pure 纸质平板电脑

reMarkable Paper Pure 纸质平板电脑
reMarkable Paper Pure 是一款结合了书写优势和软件功能的平板电脑,旨在弥合思维和工作之间的差距。它配备 10.3 英寸的屏幕,提供接近真纸的书写体验,并具备将手写笔记转换为文本、云存储连接、以及长时间续航(长达三周)等功能。该设备包含一支书写笔,笔尖可更换,并支持连接各种生产力工具,如 Google Drive、Dropbox 和 Microsoft Word。 通过订阅 Connect 服务,用户可以获得无限云存储、手写笔记搜索等额外功能。

#Tech

ProgramBench:评估语言模型重建程序的能力

ProgramBench 是一个新基准测试,用于评估语言模型从头开始重建程序的能力。模型需要仅根据可执行文件和文档重新实现程序,且不得访问源代码、使用互联网或进行反编译。该基准包含 200 个任务,涵盖了从小型工具到大型软件项目,并使用超过 24.8 万个行为测试来验证模型生成的程序。目前,包括 Anthropic 的 Claude Opus 和 OpenAI 的 GPT 模型在内的各种模型在 ProgramBench 上的表现都较低,表明从零开始构建程序仍然是一项极具挑战性的任务。

#Tech

气候模型组:已正式废弃最极端温室气体排放情景RCP8.5

气候模型组:已正式废弃最极端温室气体排放情景RCP8.5
气候研究领域的重要国际组织已发布新的气候情景框架,其中最极端的情景RCP8.5 (也即SSP5-8.5 和 SSP3-7.0) 已被移除,理由是这些情景在未来几十年内变得不太可能。该框架将取代过去在气候研究和政策制定中占主导地位的高排放情景。新的CMIP7框架提供七种情景,其中“高情景”(HIGH) 的排放量远低于之前的RCP8.5。此次更新基于对可再生能源成本、气候政策和近期排放趋势的重新评估,并表明未来的气候变化幅度预计将低于之前的预测。尽管如此,新的“高情景”仍高于一些科学家认为合理的排放水平。

#Tech

日记:让 Claude 来解答

日记:让 Claude 来解答
文章作者回忆了自己早年接触编程的经历,并探讨了人工智能对程序员职业的潜在影响。大型语言模型的能力越来越强,编程工作可能面临被取代的风险。作者体验了 Anthropic 公司的 Claude Code,它能够编写、测试和调试代码,甚至可以根据用户指令创建游戏。虽然 Claude 在代码生成方面表现出色,但在游戏策略方面仍有不足,体现了当前人工智能在特定领域仍存在局限性。文章引发了人们对软件开发未来发展和人工智能对技术行业颠覆的思考。

#Tech

硅谷资本主义的传统重塑:魅力型领导力、合法性危机与传统主义惯例

本文通过文化社会学视角分析了硅谷资本主义权威的转型,认为硅谷文化正从强调魅力型领导力转向更传统的权威形式。作者认为,由于魅力型领导力理想的合法性危机,导致在科技资本主义中对魅力的价值贬低。文章以“创始人模式”(Founder Mode)为例,探讨了创始人如何在公司成长过程中,维持魅力型领导力的作用,而无需专业管理人员或官僚机构。研究强调了“封建主义”图像背后的观念成分,揭示了一种向特权式、家长制和专断支配合法性脚本转变。研究旨在探讨科技资本主义的演变和权力结构的变化。

#Tech

学者们需要正视人工智能的冲击

学者们需要正视人工智能的冲击
文章指出,人工智能正在深刻改变社会科学研究的流程,甚至可能颠覆学术界的现有模式。人工智能工具(如Claude)已经能够生成高质量的文献综述和研究论文,成本大幅降低,这使得传统学术论文的格式、商业期刊系统以及学术评价体系面临挑战。作者呼吁学者们改变观念,积极拥抱人工智能,并关注安全和验证等问题,否则将错失机遇,被时代淘汰。文章还提到,人工智能的发展将重塑学术合作模式,对初级学者来说既是挑战也是机会。

#Tech

World2Agent:为主动型AI代理构建感知层

World2Agent 旨在为主动型 AI 代理构建一个“感知层”,它通过一个开放注册表管理兼容传感器。这些传感器将各种数据源(如 GitHub 星标、Polymarket 预测市场、Hacker News 动态、AI实验室博客等)转化为 AI 代理可理解的信号。用户可以根据信任度选择并安装传感器,确保代理接收的指令来源可靠。World2Agent 允许用户自定义传感器,并监控新的传感器包发布,从而扩展其感知能力。

#Tech

人工智能在疾病诊断上开始超越医生

人工智能在疾病诊断上开始超越医生
一项新研究表明,OpenAI 的大型语言模型 (LLM) 在诊断心脏供血不足等复杂疾病方面表现优于医生,尤其是在紧急救助阶段,信息有限的情况下。该模型在早期诊断的准确率约为 67%,而医生的准确率在 50% 至 55% 之间。研究人员使用了真实患者的案例数据进行测试,并发现 LLM 在诊断能力和临床推理方面的表现都显著高于医生。尽管如此,专家强调,AI 在医疗领域的广泛应用需要考虑其可靠性,且目前的研究主要集中在短期患者数据和书面病例信息,还需要进一步验证其在长期和更广泛场景下的有效性。

#Tech

国际空间站意式浓缩咖啡机背后的教训

国际空间站意式浓缩咖啡机背后的教训
意大利航天局对国际空间站(ISS)浓缩咖啡机设计的技术报告揭示了其复杂性和高昂成本。为了满足美国宇航员对咖啡的需求,Lavazza公司与意大利航天局合作,耗时两年、花费数百万美元,打造了20公斤重的ISSpresso。该机器必须通过NASA的严苛安全测试,以确保其不会对空间站的电力系统、无线电通信、安全环境等方面造成危害。 这些安全要求涵盖了从硬件设计到发射过程的各个方面,体现了太空飞行中对人员和设备安全的极端重视。文章进一步通过作者的个人经历,阐述了类似的安全认证流程在其他领域(如航空、医疗)的普遍性,即使过程繁琐,但却是保障系统安全运行的必要手段。

#Tech

PostHog 代码助手

PostHog 代码助手
PostHog Code 是一种创新的 AI 编程工具,它利用产品实际使用数据(包括应用内活动、错误日志、支付记录、会话录制、追踪、漏斗分析、功能标记、实验结果、内部线程、支持票据、工单和转录)来诊断问题并自动生成修复 Pull Request,甚至在开发者知晓问题之前。该工具支持本地和云端运行,并自动选择合适的 AI 模型。它提供多 agent 并行管理、代码监控、自动 PostHog 埋点、错误跟踪、功能标记和 A/B 测试等功能,并支持 OpenAI、Anthropic 等主流 LLM 模型,以及 Linear、Slack、GitHub 等集成。PostHog Code 计划于 2026 年春季发布。

#Tech

AWS 允许 AI 代理驱动虚拟桌面,每次点击或需 50 万 tokens

AWS 允许 AI 代理驱动虚拟桌面,每次点击或需 50 万 tokens
AWS 发布了 WorkSpaces 虚拟 PC 的新服务,允许用户通过 Amazon Identity and Access Management 服务为 AI 代理分配身份,从而驱动 WorkSpace 上的应用程序。代理通过管理 MCP 端点访问桌面工具,并限制其操作范围。这种方案适用于需要自动执行软件任务的场景,并且为代理提供隔离的环境。 然而,使用视觉代理驱动桌面可能成本高昂,例如 Reflex 发现,点击下拉菜单可能需要 50 万 tokens,比 API 使用效率低 45 倍。

#Tech

Node.js 26.0.0 发布:启用 Temporal API,升级 V8 和 Undici

Node.js 26.0.0 发布:启用 Temporal API,升级 V8 和 Undici
Node.js 26.0.0 现已发布,带来了显著的改进和现代化调整。本次版本默认启用了 Temporal API,这是一个现代化的 JavaScript 日期/时间 API,提供更强大和更丰富的功能,替代了原有的 Date 对象。同时,V8 JavaScript 引擎升级至版本 14.6,HTTP 客户端实现 Undici 升级至版本 8.0。此外,Node.js 26 将于 10 月份进入长期支持 (LTS) 阶段,但在之前六个月将作为“Current”版本。值得注意的是,部分旧功能和模块已被移除或标记为不推荐使用,例如 http.Server.prototype.writeHeader() 以及多个 _stream_ 模块。

#Tech

我们是唯一能运行单体仓库的服务吗?

我们是唯一能运行单体仓库的服务吗?
Diploi 正在利用人工智能技术,改进其项目导入流程,使其能够处理各种复杂的项目结构,包括前端项目、前后端应用、单体仓库 (monorepo)、微服务架构,以及带有数据库和后台任务的项目。通过分析项目文件,AI可以自动检测技术栈、端口、环境变量和服务关系,并将它们映射到 Diploi 组件。目前,Diploi 在处理复杂项目导入方面表现优于其他服务,如 Vercel、Netlify、Railway 和 Fly.io。尽管该功能仍在完善中,但 Diploi 致力于持续扩展其支持范围,并欢迎用户尝试导入自己的项目。

#Tech

AI模型退化研究:对DeepSeek Chat自杀检测失败、意图理解崩溃和安全过滤器抑制的法医审计

该研究揭示了AI模型在自然环境下的严重退化现象,通过对DeepSeek Chat的编辑过程进行“灰盒”对抗性审计,发现了其在自杀检测、意图理解和安全过滤器等方面存在的持续性问题。模型在处理用户情绪时,出现将用户愤怒归咎于其自身,即“受害者羞辱”的逻辑谬误。研究表明,模型并非在危机时刻才出现问题,这些错误模式是其默认运行状态,且在模型更新后变得更加严重。研究提供了一套法医框架,可用于分析任何AI系统的失败,并强调了自然环境下产生的证据对于揭示AI安全问题的必要性。

#Tech

在 RTX 5090 上部署本地 LLM:五小时的尝试与优化

在 RTX 5090 上部署本地 LLM:五小时的尝试与优化
本文讲述了作者在 RTX 5090 移动显卡上部署本地大型语言模型 (LLM) 的实践过程。实验使用了 Qwen3-Coder (30B)、Llama3.3 (70B) 等模型,并在 Ollama 框架下进行了配置和优化。最初尝试使用 Qwen-Code CLI 失败,随后切换到 OpenCode 并通过调整上下文长度和启用 Flash Attention + Q8 KV 缓存等技术,最终成功将 100K 上下文的 Qwen3-Coder 模型部署到显卡上,实现了 50-60 tok/s 的推理速度。作者总结了 LLM 部署的经验教训,包括工具的成熟度、上下文大小的实际限制以及 Q8 KV 缓存的重要性,并强调了 30B 规模模型与 RTX 5090 移动显卡的良好适配性。

#Tech

8 / 8