Anthropic 发布 Claude 基础设施故障事后报告
Anthropic 公布了一份详细技术报告,回顾 8 月至 9 月初间影响 Claude 响应质量的三处基础设施漏洞。公司强调,这些问题与用户量、服务器负载或时间无关,完全由底层技术错误引发。
第一,Sonnet 4 出现上下文窗口路由错误,短上下文请求被误送往长上下文服务器,8 月 31 日高峰时段影响达 16%。第二,TPU 端配置失误导致概率分布异常,部分英文回复夹入泰文、中文字符或出现代码语法错误。第三,XLA:TPU 编译器的近似 top-k 算法存在潜在缺陷,在特定条件下返回错误结果,影响 Haiku 3.5 及部分 Sonnet 4、Opus 3。
Anthropic 承认,现有评估与监控体系未能及时捕捉异常,增加了诊断难度。为避免类似事件重演,公司将引入更敏感的质量评估、在生产环境持续运行检测,并开发更快的调试工具,同时继续依赖用户反馈作为补充信号。
同时该公司表明: 直白来说:我们从不会因为需求量、时间或服务器负载而降低模型质量。用户报告的问题完全是由基础设施漏洞引起的。
原文:
来源: anthropic blog
X
Anthropic 公布了一份详细技术报告,回顾 8 月至 9 月初间影响 Claude 响应质量的三处基础设施漏洞。公司强调,这些问题与用户量、服务器负载或时间无关,完全由底层技术错误引发。
第一,Sonnet 4 出现上下文窗口路由错误,短上下文请求被误送往长上下文服务器,8 月 31 日高峰时段影响达 16%。第二,TPU 端配置失误导致概率分布异常,部分英文回复夹入泰文、中文字符或出现代码语法错误。第三,XLA:TPU 编译器的近似 top-k 算法存在潜在缺陷,在特定条件下返回错误结果,影响 Haiku 3.5 及部分 Sonnet 4、Opus 3。
Anthropic 承认,现有评估与监控体系未能及时捕捉异常,增加了诊断难度。为避免类似事件重演,公司将引入更敏感的质量评估、在生产环境持续运行检测,并开发更快的调试工具,同时继续依赖用户反馈作为补充信号。
同时该公司表明: 直白来说:我们从不会因为需求量、时间或服务器负载而降低模型质量。用户报告的问题完全是由基础设施漏洞引起的。
原文:
To state it plainly: We never reduce model quality due to demand, time of day, or server load. The problems our users reported were due to infrastructure bugs alone.
来源: anthropic blog
X
OpenAI 推出 GPT-5 Thinking 可调节思考时长功能
OpenAI 宣布,ChatGPT 网页端新增 GPT-5 Thinking 思考时间调节功能,用户可根据需求选择不同模式。
Plus、Pro、Business 用户可在 Standard(新默认,平衡速度与智能)与 Extended(此前 Plus 默认)之间切换。Pro 用户则额外提供 Light(最快响应)与 Heavy(更深入推理)两种选项。
用户的选择会自动保存,并在后续对话中保持,直到手动修改
GPT-5 Think 的 Juice(推理) 值
Light: 5
Standard: 18
Extended: 64
Heavy: 200
OpenAI X
X
OpenAI 宣布,ChatGPT 网页端新增 GPT-5 Thinking 思考时间调节功能,用户可根据需求选择不同模式。
Plus、Pro、Business 用户可在 Standard(新默认,平衡速度与智能)与 Extended(此前 Plus 默认)之间切换。Pro 用户则额外提供 Light(最快响应)与 Heavy(更深入推理)两种选项。
用户的选择会自动保存,并在后续对话中保持,直到手动修改
GPT-5 Think 的 Juice(推理) 值
Light: 5
Standard: 18
Extended: 64
Heavy: 200
OpenAI X
X
美联储点阵图中位数呈现出相当分散的局面,美联储预计年内还将降息两次,较6月的降息预期多一次。19位官员中有9位官员预计今年还将降息两次,有2位预计还将降息一次,有6位预计年内不再降息,有1位预计年内加息一次,有1位预计年内至少有两次50个基点或以上的降息。
在委员们权衡降息利弊之际,鲍威尔倾向认为通胀风险或许更容易应对,美联储应该容忍更多的通胀风险,以避免劳动力市场出现更深层次的裂痕。
来源:外汇交易员
瑞典拟砍失业福利、设福利上限 目标降低高失业率
瑞典正临近大选年,该国政府提议削减失业人员的福利金,以解决其作为欧洲失业率最高的国家之一所面临的就业难题。周三公布的这项计划将纳入政府2026年预算案,同期预算还包括对劳动所得实施减税——这一举措在一定程度上也是为了鼓励更多瑞典人参与工作。政府针对福利体系的改革计划将包含一项所谓的“福利上限”规定。这一新限制意味着,有两名失业父母的大家庭每月收入损失最大,约为8000瑞典克朗(合870美元)。此外,政府还将为那些从领取福利转向工作的人提供财政激励。瑞典官员表示:“必须让更多孩子看到父母去工作。我们的理念并非让家庭长年依赖福利生活。”
(格隆汇)
瑞典正临近大选年,该国政府提议削减失业人员的福利金,以解决其作为欧洲失业率最高的国家之一所面临的就业难题。周三公布的这项计划将纳入政府2026年预算案,同期预算还包括对劳动所得实施减税——这一举措在一定程度上也是为了鼓励更多瑞典人参与工作。政府针对福利体系的改革计划将包含一项所谓的“福利上限”规定。这一新限制意味着,有两名失业父母的大家庭每月收入损失最大,约为8000瑞典克朗(合870美元)。此外,政府还将为那些从领取福利转向工作的人提供财政激励。瑞典官员表示:“必须让更多孩子看到父母去工作。我们的理念并非让家庭长年依赖福利生活。”
(格隆汇)
中国互联网监管机构已要求国内大型科技企业停止采购英伟达所有人工智能芯片并取消现有订单。
本周已告知包括字节跳动和阿里巴巴在内的企业,停止测试和订购英伟达两个月前专为中国市场定制的产品 RTX Pro 6000D。这一消息来自三位知情人士。
“现在的信号已经非常明确,”一家科技公司的高管表示。“早些时候,人们还寄望于地缘政治局势改善后能恢复英伟达的供应。如今所有人都要全力以赴建设国产体系。”
北京监管机构近日召集了华为、寒武纪等国内芯片制造商,以及拥有自研芯片能力的阿里巴巴和搜索引擎巨头百度,要求其汇报各自产品与英伟达中国芯片的性能对比情况。
他们得出结论,中国的 AI 处理器已达到与出口管制下允许的英伟达产品相当甚至更高的水平,该人士补充道。
金融时报
本周已告知包括字节跳动和阿里巴巴在内的企业,停止测试和订购英伟达两个月前专为中国市场定制的产品 RTX Pro 6000D。这一消息来自三位知情人士。
“现在的信号已经非常明确,”一家科技公司的高管表示。“早些时候,人们还寄望于地缘政治局势改善后能恢复英伟达的供应。如今所有人都要全力以赴建设国产体系。”
北京监管机构近日召集了华为、寒武纪等国内芯片制造商,以及拥有自研芯片能力的阿里巴巴和搜索引擎巨头百度,要求其汇报各自产品与英伟达中国芯片的性能对比情况。
他们得出结论,中国的 AI 处理器已达到与出口管制下允许的英伟达产品相当甚至更高的水平,该人士补充道。
金融时报
根据统计局的数据,中国8月份16-24岁(不包括在校学生)的失业率从7月份的17.8%上升至18.9%,25-29岁人群的失业率为7.2%,而之前为6.9%,而30-59岁的失业率保持不变,为3.9%。
来源:国家统计局
来源:国家统计局
寒武纪:
690系列目前基于台积电版本进行设计并已送样测试,其FP16性能达到850-860,互联能力优于910C。目前处于小批量供货阶段,预计2025年第四季度到2026年第一季度会有少量台积电版本供应。大规模供货需等待南方厂产能提升,预计将在2026年第二季度后实现。
590系列在2026年的采购量预计与2025年相近,为10万至12万张,而690系列则可能达到13万至15万张,两者合计接近30万张。这一总量基于现有供应链状况,但仍存在因690供给延后导致实际数量低于预期的可能性。
690系列目前基于台积电版本进行设计并已送样测试,其FP16性能达到850-860,互联能力优于910C。目前处于小批量供货阶段,预计2025年第四季度到2026年第一季度会有少量台积电版本供应。大规模供货需等待南方厂产能提升,预计将在2026年第二季度后实现。
590系列在2026年的采购量预计与2025年相近,为10万至12万张,而690系列则可能达到13万至15万张,两者合计接近30万张。这一总量基于现有供应链状况,但仍存在因690供给延后导致实际数量低于预期的可能性。
AMD 正式发布 ROCm 7.0
AMD 于 9 月 16 日宣布 ROCm 7.0 正式发布,这是其开源计算平台一次重要升级。新版本引入对 Instinct MI355X、MI350X 的支持,并新增 Ubuntu 24.04.3 与 Rocky Linux 9 系统兼容,同时淘汰了旧版 Ubuntu 与 SLES 15 SP6。
ROCm 7.0 最大的变化是 HIP API 出现不兼容更新,既有应用需重新编译方可运行;同时,AMDGPU 内核驱动与 ROCm 版本开始分离,依赖矩阵公开。虚拟化方面,MI350X/MI355X 支持 KVM 直通,MI300X 获得 VMware ESXi 8 支持。
AI 框架支持也同步更新,包括 PyTorch 2.7、TensorFlow 2.19.1、ONNX Runtime 1.22.0、JAX 0.6.0、Triton 3.3.0、vLLM 等。相关数学库、通信库与工具链全面提档,进一步提升大模型和 HPC 场景表现。
AMD 还为企业用户引入 Resource Manager 与 AI Workbench,并提供 vLLM、SGLang 的预构建容器镜像,加速模型部署。
来源:AMD 官方发布
AMD 于 9 月 16 日宣布 ROCm 7.0 正式发布,这是其开源计算平台一次重要升级。新版本引入对 Instinct MI355X、MI350X 的支持,并新增 Ubuntu 24.04.3 与 Rocky Linux 9 系统兼容,同时淘汰了旧版 Ubuntu 与 SLES 15 SP6。
ROCm 7.0 最大的变化是 HIP API 出现不兼容更新,既有应用需重新编译方可运行;同时,AMDGPU 内核驱动与 ROCm 版本开始分离,依赖矩阵公开。虚拟化方面,MI350X/MI355X 支持 KVM 直通,MI300X 获得 VMware ESXi 8 支持。
AI 框架支持也同步更新,包括 PyTorch 2.7、TensorFlow 2.19.1、ONNX Runtime 1.22.0、JAX 0.6.0、Triton 3.3.0、vLLM 等。相关数学库、通信库与工具链全面提档,进一步提升大模型和 HPC 场景表现。
AMD 还为企业用户引入 Resource Manager 与 AI Workbench,并提供 vLLM、SGLang 的预构建容器镜像,加速模型部署。
来源:AMD 官方发布
据金融时报报道,中芯国际正在测试中国首款国产先进芯片生产设备。
据两位知情人士透露,中芯国际正在测试由上海初创公司宇量昇生产的DUV光刻机。其中一位知情人士表示,中芯国际试验的早期结果令人鼓舞,但目前尚不清楚该机器是否以及何时可以用于大规模芯片生产。中芯国际未回应置评请求。
金融时报
据两位知情人士透露,中芯国际正在测试由上海初创公司宇量昇生产的DUV光刻机。其中一位知情人士表示,中芯国际试验的早期结果令人鼓舞,但目前尚不清楚该机器是否以及何时可以用于大规模芯片生产。中芯国际未回应置评请求。
金融时报
美国总统特朗普宣布,将TikTok母公司字节跳动的剥离期限延至12月16日,以便完成新的交易框架。根据多家媒体报道,该方案将使一家由美国投资方牵头的财团获得TikTok约八成股权,其中包括甲骨文、银湖资本和Andreessen Horowitz等公司,TikTok的董事会将以美国成员为主,并设有美政府指定席位。
来源:arstechnica
来源:arstechnica
OpenAI计划推出年龄验证系统以加强青少年安全保护
OpenAI宣布将开发自动年龄预测系统,为18岁以下用户提供受限版ChatGPT。公司CEO称,为保障青少年安全,未来部分成年用户可能需提供身份证明,这是将安全置于隐私之上的权衡。此举旨在回应近期相关的青少年安全事件。
此外,家长控制功能将于九月底上线。尽管OpenAI承认该技术存在挑战,但在无法确定用户年龄时,系统将默认启用受限模式以确保安全。
来源:arstechnica
OpenAI宣布将开发自动年龄预测系统,为18岁以下用户提供受限版ChatGPT。公司CEO称,为保障青少年安全,未来部分成年用户可能需提供身份证明,这是将安全置于隐私之上的权衡。此举旨在回应近期相关的青少年安全事件。
此外,家长控制功能将于九月底上线。尽管OpenAI承认该技术存在挑战,但在无法确定用户年龄时,系统将默认启用受限模式以确保安全。
来源:arstechnica
新版Google Windows桌面应用程序带来快速搜索工具
Google周二宣布推出专为Windows设计的新实验应用程序,旨在通过更快速的搜索功能帮助用户找到所需信息。用户可以通过Alt + Space快捷键在计算机文件、已安装应用、Google Drive文件和互联网上快速查找信息。该搜索工具类似于Mac的Spotlight搜索功能,允许用户迅速在设备和网络中查找任何事物。
此应用程序通过Google的Search Labs计划提供,用户可以测试早期功能并提供反馈意见。该应用还集成了Google Lens,用户可以选择屏幕上的任何内容进行搜索以进行快速翻译、数学帮助等。此外,用户可以通过Google的AI Mode功能对复杂问题进行深入回答。应用支持多种搜索结果类型选择,并提供暗黑模式选项,仅限美国用户使用,并需Windows 10或更高版本计算机。
来源:techcrunch / Google Blog / Google Search Labs
Google周二宣布推出专为Windows设计的新实验应用程序,旨在通过更快速的搜索功能帮助用户找到所需信息。用户可以通过Alt + Space快捷键在计算机文件、已安装应用、Google Drive文件和互联网上快速查找信息。该搜索工具类似于Mac的Spotlight搜索功能,允许用户迅速在设备和网络中查找任何事物。
此应用程序通过Google的Search Labs计划提供,用户可以测试早期功能并提供反馈意见。该应用还集成了Google Lens,用户可以选择屏幕上的任何内容进行搜索以进行快速翻译、数学帮助等。此外,用户可以通过Google的AI Mode功能对复杂问题进行深入回答。应用支持多种搜索结果类型选择,并提供暗黑模式选项,仅限美国用户使用,并需Windows 10或更高版本计算机。
来源:techcrunch / Google Blog / Google Search Labs
美国商务部表示,将在未来几周内考虑业界以国家安全为由提出的对更多进口汽车零部件加征关税的请求。商务部称,"汽车行业正处于各种技术的快速发展阶段,包括在替代推进系统、自动驾驶能力和其他先进技术领域。"该部补充称,汽车行业需要"机会来识别对国防应用具有重要意义的新兴汽车产品"。
来源:凤凰网
来源:凤凰网
中国AI公司DeepSeek开展人工智能前沿风险评估
中国人工智能初创公司DeepSeek已对其AI模型的"前沿风险"进行内部评估,特别关注自我复制和网络攻击能力。据知情人士透露,该评估结果未对外公布。与美国AI公司公开发布风险评估结果的做法不同,中国企业在风险评估方面更为谨慎。此举正值北京推动国内AI行业提升安全意识之际,DeepSeek也是签署AI安全自律承诺的22家中国科技公司之一。
来源:南华早报
中国人工智能初创公司DeepSeek已对其AI模型的"前沿风险"进行内部评估,特别关注自我复制和网络攻击能力。据知情人士透露,该评估结果未对外公布。与美国AI公司公开发布风险评估结果的做法不同,中国企业在风险评估方面更为谨慎。此举正值北京推动国内AI行业提升安全意识之际,DeepSeek也是签署AI安全自律承诺的22家中国科技公司之一。
来源:南华早报
Figure 宣布完成超 10 亿美元 C 轮融资,投后估值 390 亿美元
今日我们宣布,通过 C 轮融资我们已获得超过 10 亿美元的承诺资金,投后估值为 390 亿美元。这笔资金将加速我们将通用型人形机器人大规模引入现实环境的努力。
本轮融资由 Parkway Venture Capital 领投,Brookfield Asset Management、NVIDIA、麦格理资本、英特尔资本、Align Ventures、Tamarack Global、LG Technology Ventures、Salesforce、T-Mobile Ventures 和 Qualcomm Ventures 等机构参投。
figure.ai
今日我们宣布,通过 C 轮融资我们已获得超过 10 亿美元的承诺资金,投后估值为 390 亿美元。这笔资金将加速我们将通用型人形机器人大规模引入现实环境的努力。
本轮融资由 Parkway Venture Capital 领投,Brookfield Asset Management、NVIDIA、麦格理资本、英特尔资本、Align Ventures、Tamarack Global、LG Technology Ventures、Salesforce、T-Mobile Ventures 和 Qualcomm Ventures 等机构参投。
figure.ai
中国首次进入联合国全球创新指数前十
根据联合国发布的最新《全球创新指数》报告,中国首次进入该榜单前十名,位列第十,取代了降至第十一名的德国。瑞士自2011年以来持续位居榜首,瑞典和美国分列第二和第三。
报告指出,中国排名的提升主要得益于在研发领域的持续高额投入,其私营部门融资也正迅速增长。数据显示,2024年中国贡献了约四分之一的国际专利申请,是全球最大的申请来源国。
来源:路透社
根据联合国发布的最新《全球创新指数》报告,中国首次进入该榜单前十名,位列第十,取代了降至第十一名的德国。瑞士自2011年以来持续位居榜首,瑞典和美国分列第二和第三。
报告指出,中国排名的提升主要得益于在研发领域的持续高额投入,其私营部门融资也正迅速增长。数据显示,2024年中国贡献了约四分之一的国际专利申请,是全球最大的申请来源国。
来源:路透社
OpenAI披露ChatGPT用户使用习惯:超半数用户为女性,非工作用途增速更快
美国国家经济研究局(NBER)发布一篇由OpenAI提交的工作论文,这份使用150万次对话、迄今为止最大规模数据的分析报告,展现了自2022年ChatGPT推出以来,用户如何与其互动。截至2025年7月,ChatGPT的周活跃人数已突破7亿,相当于全球十分之一的成年人口。
报告指出,ChatGPT刚上线时,男性用户占比超过八成。随着AI的普及化,到2025年7月,女性用户数量已首次超过一半。从年龄层来看,18至25岁的年轻世代贡献了近半数的讯息量。另外,AI工具在中低收入国家的渗透率增长更快,证明AI带来的生产力提升并非富裕国家的专利。
尽管资本市场持续将AI与提升生产力划上等号,但这份报告显示,ChatGPT的非工作用途增长速度更快。2024年年中,非工作相关讯息占比为53%,但一年后此比例已上升至73%。这项转变显示,用户在娱乐、学习和生活咨询等方面的需求,正逐步超越职场应用。
报告将对话主题归纳为七大类,其中实用指导(29%)、信息查询(24%)和写作(24%)合计占了近八成。信息查询的占比在一年内几乎翻倍,ChatGPT正逐渐取代部分搜索引擎的功能。编程相关的对话仅占4.2%,远低于其他竞品。尽管网络上对AI伴侣和游戏的讨论热烈,但这两类对话的实际占比分别仅有1.9%和0.5%。
研究团队进一步分析用户意图,将其分为提问、执行和表达三类。提问占比最高,约为49%,表明人们更倾向于将ChatGPT视为顾问,而非单纯用于完成任务的工具。特别是在高学历、高薪的专业人士群体中,提问的占比更高。
(格隆汇)
美国国家经济研究局(NBER)发布一篇由OpenAI提交的工作论文,这份使用150万次对话、迄今为止最大规模数据的分析报告,展现了自2022年ChatGPT推出以来,用户如何与其互动。截至2025年7月,ChatGPT的周活跃人数已突破7亿,相当于全球十分之一的成年人口。
报告指出,ChatGPT刚上线时,男性用户占比超过八成。随着AI的普及化,到2025年7月,女性用户数量已首次超过一半。从年龄层来看,18至25岁的年轻世代贡献了近半数的讯息量。另外,AI工具在中低收入国家的渗透率增长更快,证明AI带来的生产力提升并非富裕国家的专利。
尽管资本市场持续将AI与提升生产力划上等号,但这份报告显示,ChatGPT的非工作用途增长速度更快。2024年年中,非工作相关讯息占比为53%,但一年后此比例已上升至73%。这项转变显示,用户在娱乐、学习和生活咨询等方面的需求,正逐步超越职场应用。
报告将对话主题归纳为七大类,其中实用指导(29%)、信息查询(24%)和写作(24%)合计占了近八成。信息查询的占比在一年内几乎翻倍,ChatGPT正逐渐取代部分搜索引擎的功能。编程相关的对话仅占4.2%,远低于其他竞品。尽管网络上对AI伴侣和游戏的讨论热烈,但这两类对话的实际占比分别仅有1.9%和0.5%。
研究团队进一步分析用户意图,将其分为提问、执行和表达三类。提问占比最高,约为49%,表明人们更倾向于将ChatGPT视为顾问,而非单纯用于完成任务的工具。特别是在高学历、高薪的专业人士群体中,提问的占比更高。
(格隆汇)