原美国国防部中台蒙事务主任唐安竹(Drew Thompson)1月26日撰文怀念张又侠。他2012年5月曾接待访美的国防部长梁光烈一行,对时任沈阳军区司令员的张又侠高度评价。他带领参观班宁堡陆军训练场,张深入了解了美军装备与制度,还试用了M240机枪。在他眼中,张又侠身经百战,对战争心存敬畏,又与习有特殊关系,可就中美台战力对比、军事冲突代价等战略问题向习主席坦诚客观提供意见。他担忧,张又侠去职将增加误判风险。
他又指出,2023年9月李尚福被捕后,《南华早报》记者陈敏莉曾与他讨论张又侠张升民是否也被审查。10月她进京采访香山论坛后失联至今。如今张又侠已被捕,希望中方可以释放陈敏莉。
《南华早报》24日指,张又侠1月19日被捕,中共1月23日在高层通报了对张的审查,罪名包括未能管好身边人,未及时向党汇报情况。
1月26日出版的《华尔街日报》刊稿称“中核总经理顾军指认张又侠泄密给美国”。学者批评,卖密说不合逻辑,是2023年“俄情报指秦刚卖密”的翻版。
chinadrew.substack.com
他又指出,2023年9月李尚福被捕后,《南华早报》记者陈敏莉曾与他讨论张又侠张升民是否也被审查。10月她进京采访香山论坛后失联至今。如今张又侠已被捕,希望中方可以释放陈敏莉。
《南华早报》24日指,张又侠1月19日被捕,中共1月23日在高层通报了对张的审查,罪名包括未能管好身边人,未及时向党汇报情况。
1月26日出版的《华尔街日报》刊稿称“中核总经理顾军指认张又侠泄密给美国”。学者批评,卖密说不合逻辑,是2023年“俄情报指秦刚卖密”的翻版。
chinadrew.substack.com
NVIDIA加码投资CoreWeave
2026年1月26日,NVIDIA与CoreWeave宣布扩大战略合作,目标是推动CoreWeave在2030年前加速建设超过5吉瓦(GW)的AI工厂(以AI算力为核心的数据中心)。同时,NVIDIA以每股87.20美元的价格投资20亿美元购买CoreWeave A类普通股。
由CoreWeave开发与运营、基于NVIDIA加速计算平台的AI工厂建设;利用NVIDIA资金实力协助CoreWeave加快土地、电力与基础设施外壳等前置资源获取;并对CoreWeave的软件与参考架构(含Mission Control等)进行测试验证,以便进一步纳入NVIDIA面向云与企业客户的参考架构体系。
Reuters称,这笔投资将使NVIDIA成为CoreWeave第二大股东,资金用途不用于购买NVIDIA芯片,而是投向数据中心相关投入、研发及扩充团队等;报道也提到市场对“循环式交易/互投互采”模式的关注仍在。TechCrunch补充称,CoreWeave还将把NVIDIA多代产品整合进其平台,包括Rubin架构、BlueField以及Vera CPU等。
NVIDIA
reuters
2026年1月26日,NVIDIA与CoreWeave宣布扩大战略合作,目标是推动CoreWeave在2030年前加速建设超过5吉瓦(GW)的AI工厂(以AI算力为核心的数据中心)。同时,NVIDIA以每股87.20美元的价格投资20亿美元购买CoreWeave A类普通股。
由CoreWeave开发与运营、基于NVIDIA加速计算平台的AI工厂建设;利用NVIDIA资金实力协助CoreWeave加快土地、电力与基础设施外壳等前置资源获取;并对CoreWeave的软件与参考架构(含Mission Control等)进行测试验证,以便进一步纳入NVIDIA面向云与企业客户的参考架构体系。
Reuters称,这笔投资将使NVIDIA成为CoreWeave第二大股东,资金用途不用于购买NVIDIA芯片,而是投向数据中心相关投入、研发及扩充团队等;报道也提到市场对“循环式交易/互投互采”模式的关注仍在。TechCrunch补充称,CoreWeave还将把NVIDIA多代产品整合进其平台,包括Rubin架构、BlueField以及Vera CPU等。
NVIDIA
reuters
NVIDIA发布开源Earth-2天气AI模型套件
2026年1月26日,NVIDIA在美国气象学会(AMS)年会上公布Earth-2开源模型家族,并将其定位为完全开放、加速的天气AI软件栈,覆盖从观测数据处理到全球中期预报、以及局地强对流短临预报等环节。本次重点推出三类开源模型:Earth-2 Medium Range(Atlas架构)用于最长15天、70+气象变量的中期预报;Earth-2 Nowcasting(StormScope架构)基于卫星与雷达数据做0–6小时、公里级分辨率的短临预报;Earth-2 Global Data Assimilation(HealDA架构)用于生成预报初始场,将传统同化环节从“小时级”压缩到GPU“秒级”产出。
NVIDIA称,这类AI方法旨在以更低成本替代部分昂贵的数值模拟流程;Reuters援引NVIDIA相关负责人说法称,模型训练完成后推理速度可达到约1000倍提升,从而让保险等行业更容易运行更大规模集合预报(例如万成员集合)以评估极端尾部风险。Earth-2 Medium Range与Nowcasting已通过Earth2Studio并在Hugging Face/GitHub渠道提供;Global Data Assimilation预计将在2026年“稍晚发布”
NVIDIA Blog
2026年1月26日,NVIDIA在美国气象学会(AMS)年会上公布Earth-2开源模型家族,并将其定位为完全开放、加速的天气AI软件栈,覆盖从观测数据处理到全球中期预报、以及局地强对流短临预报等环节。本次重点推出三类开源模型:Earth-2 Medium Range(Atlas架构)用于最长15天、70+气象变量的中期预报;Earth-2 Nowcasting(StormScope架构)基于卫星与雷达数据做0–6小时、公里级分辨率的短临预报;Earth-2 Global Data Assimilation(HealDA架构)用于生成预报初始场,将传统同化环节从“小时级”压缩到GPU“秒级”产出。
NVIDIA称,这类AI方法旨在以更低成本替代部分昂贵的数值模拟流程;Reuters援引NVIDIA相关负责人说法称,模型训练完成后推理速度可达到约1000倍提升,从而让保险等行业更容易运行更大规模集合预报(例如万成员集合)以评估极端尾部风险。Earth-2 Medium Range与Nowcasting已通过Earth2Studio并在Hugging Face/GitHub渠道提供;Global Data Assimilation预计将在2026年“稍晚发布”
NVIDIA Blog
2026年1月26日,Qwen团队发布Qwen3-Max-Thinking,定位为旗舰推理模型。官方称通过扩大模型参数规模并投入更大规模强化学习训练算力,模型在事实知识、复杂推理、指令遵循、人类偏好对齐与智能体能力等维度提升,并在19项基准测试上与GPT-5.2-Thinking、Claude-Opus-4.5、Gemini 3 Pro等顶尖模型表现接近甚至超越。
可用性方面,Qwen称Qwen3-Max-Thinking已在Qwen Chat上线,并开放API,模型名为qwen3-max-2026-01-23。阿里云文档显示,Model Studio提供OpenAI兼容接口(可通过设置base_url接入),同时提供Anthropic API兼容方式用于对接Claude Code等工具链。
Qwen3-Max 属于商业模型,非开源权重模型
Qwen Blog
中国最高级别将领张又侠被指向美国泄露核机密
据了解相关高层通报会的人士称,中国最高级别将领被指向美国泄露有关中国核武器计划的信息,并为包括提拔军官担任国防部长等一些职务行为收受贿赂。
这场通报会于上周六上午举行,一些军方最高级别军官出席了会议。就在这场会议召开前不久,中国国防部发布重磅声明,宣布对张又侠上将进行调查。该声明除了披露对严重违纪违法问题进行调查外,几乎没有提供其他细节。
但据了解此次通报会的人士称,张又侠因涉“结党营私”问题以及在中央军委滥用职权而接受调查。相关部门还在调查张又侠对装备发展部的控制情况,该机构负责军事装备研发和采购。熟悉此次通报会的人士称,张又侠被指在这个预算庞大的采购系统中收受巨额资金以提供官职晋升。
这些人士称,在这次闭门通报会上披露的最令人震惊的指控是,张又侠向美国泄露了中国核武器的核心技术材料。了解此次通报会的人士说,一些针对张又侠的证据来自中国核工业集团前总经理顾军。中国政府上周一宣布对顾军涉嫌严重违纪违法问题进行调查。
cn.wsj.com
据了解相关高层通报会的人士称,中国最高级别将领被指向美国泄露有关中国核武器计划的信息,并为包括提拔军官担任国防部长等一些职务行为收受贿赂。
这场通报会于上周六上午举行,一些军方最高级别军官出席了会议。就在这场会议召开前不久,中国国防部发布重磅声明,宣布对张又侠上将进行调查。该声明除了披露对严重违纪违法问题进行调查外,几乎没有提供其他细节。
但据了解此次通报会的人士称,张又侠因涉“结党营私”问题以及在中央军委滥用职权而接受调查。相关部门还在调查张又侠对装备发展部的控制情况,该机构负责军事装备研发和采购。熟悉此次通报会的人士称,张又侠被指在这个预算庞大的采购系统中收受巨额资金以提供官职晋升。
这些人士称,在这次闭门通报会上披露的最令人震惊的指控是,张又侠向美国泄露了中国核武器的核心技术材料。了解此次通报会的人士说,一些针对张又侠的证据来自中国核工业集团前总经理顾军。中国政府上周一宣布对顾军涉嫌严重违纪违法问题进行调查。
cn.wsj.com
Engram对比传统LLM,有什么区别?
通过将部分 Transformer 层替换为 Engram 模块,训练时将部分知识挂载在模型特定的embedding层,推理时可实现根据 input token 通过哈希映射获得相应的 embedding索引,并将对应注入到模型主干网络的 hidden state 中,其中哈希映射的逻辑没有LayerNorm和非线性激活函数,计算量非常少,意味者这部分可由cpu进行计算。传统LLM在推理时,由于知识可能分布在不同层的 FFN 中,因此每次推理都需要把所有层都计算一次。而 Engram 可能在每轮计算中,通过哈希映射已经找到了对应的知识,当这个向量注入到主干网络后,门控可以判断其能否作为输出的一部分,从而实现某种程度上的 early exit。
相比Cpu取代Gpu的叙事,更重要的是存算分离。
论文虽然提到了“20/80比例”,但同时证明了更大的知识层能使模型的loss下降依然遵循幂律,并且这是基于3B小模型上获得的实验结果。
目前MoE模型有着总参数大,但激活量小的特点。因为其在推理时只会激活 n 个专家,而激活量只相当于激活专家的总和。在推理时,却需要加载所有专家的权重。因此MoE会耗费非常多的显存,但计算却只需要相对于模型总参数量很小的一部分权重。
同时,由于MoE模型提前预测激活专家准确性较低,而且FFN非常厚重,通过远程内存阵列加载所有权重并流式读取在目前基本不可能,因为要低延迟其需要很高的传输带宽。目前大部分多卡分布式推理都是将模型分成多个切片在多张gpu上计算,这是极其浪费的。
而在Engram中,主干网络相对于embedding层来说,可能只需要保证拥有各领域基础的思维模式和基础知识,其余信息可通过哈希映射在embedding层中获取,这大大较少了模型计算的深度,提高了推理时的效率。
Engram 在前面几层就可以根据输入来获取哈希映射进而取出命中的“知识”,并且通过demo代码中 EngramConfig 可知,n_embed_per_ngram为512,n_head_per_ngram为8,在Fp16的情况下,只需要1kb的传输量。当然demo中hidden_size仅为1024,意味者这个demo对应的大概是1B左右的小模型。但即使生产部署的情况下,这个数值也不会很大,因为单个ngram的信息量只是一个词组。
由于其对比FFN而言,跨节点通讯所需的带宽大大减少。因此,用专门的内存阵列来存储low-rank知识层,单张gpu加载主干网络变得可行,并且不需要昂贵专用互联技术,进而提升目前硬件的计算效能。
同时,Engram 也使端侧算力有限的情况下,大模型能力提升提供了一条新的路径。
(独立撰稿 LoopDns)
通过将部分 Transformer 层替换为 Engram 模块,训练时将部分知识挂载在模型特定的embedding层,推理时可实现根据 input token 通过哈希映射获得相应的 embedding索引,并将对应注入到模型主干网络的 hidden state 中,其中哈希映射的逻辑没有LayerNorm和非线性激活函数,计算量非常少,意味者这部分可由cpu进行计算。传统LLM在推理时,由于知识可能分布在不同层的 FFN 中,因此每次推理都需要把所有层都计算一次。而 Engram 可能在每轮计算中,通过哈希映射已经找到了对应的知识,当这个向量注入到主干网络后,门控可以判断其能否作为输出的一部分,从而实现某种程度上的 early exit。
相比Cpu取代Gpu的叙事,更重要的是存算分离。
论文虽然提到了“20/80比例”,但同时证明了更大的知识层能使模型的loss下降依然遵循幂律,并且这是基于3B小模型上获得的实验结果。
目前MoE模型有着总参数大,但激活量小的特点。因为其在推理时只会激活 n 个专家,而激活量只相当于激活专家的总和。在推理时,却需要加载所有专家的权重。因此MoE会耗费非常多的显存,但计算却只需要相对于模型总参数量很小的一部分权重。
同时,由于MoE模型提前预测激活专家准确性较低,而且FFN非常厚重,通过远程内存阵列加载所有权重并流式读取在目前基本不可能,因为要低延迟其需要很高的传输带宽。目前大部分多卡分布式推理都是将模型分成多个切片在多张gpu上计算,这是极其浪费的。
而在Engram中,主干网络相对于embedding层来说,可能只需要保证拥有各领域基础的思维模式和基础知识,其余信息可通过哈希映射在embedding层中获取,这大大较少了模型计算的深度,提高了推理时的效率。
Engram 在前面几层就可以根据输入来获取哈希映射进而取出命中的“知识”,并且通过demo代码中 EngramConfig 可知,n_embed_per_ngram为512,n_head_per_ngram为8,在Fp16的情况下,只需要1kb的传输量。当然demo中hidden_size仅为1024,意味者这个demo对应的大概是1B左右的小模型。但即使生产部署的情况下,这个数值也不会很大,因为单个ngram的信息量只是一个词组。
由于其对比FFN而言,跨节点通讯所需的带宽大大减少。因此,用专门的内存阵列来存储low-rank知识层,单张gpu加载主干网络变得可行,并且不需要昂贵专用互联技术,进而提升目前硬件的计算效能。
同时,Engram 也使端侧算力有限的情况下,大模型能力提升提供了一条新的路径。
(独立撰稿 LoopDns)
据腾讯内部人士向《科创板日报》记者透露,元宝即将上线全新玩法,已启动内测邀约。另外,腾讯公布的产品界面图中已悄然新增一个名为“派”的底tab入口。
source
国家安全部1月24日通报:某境外旅游穿搭博主,因常在视频中“夹带私货,散布歪曲事实、抹黑中国国家形象的言论”而被中国当局封禁。其粉丝陈某,接他人询问观看渠道,遂从境外搬运作品,二次剪辑后售卖给境内粉丝。
安全机关查处认定,其向千余人传播出售“危害国家安全”的视频数十条,获利数万元,“等待陈某的将是法律的严惩”。
安全机关查处认定,其向千余人传播出售“危害国家安全”的视频数十条,获利数万元,“等待陈某的将是法律的严惩”。
张又侠、刘振立涉嫌严重违纪违法被立案审查调查
中央政治局委员、中央军委副主席张又侠,中央军委委员、中央军委联合参谋部参谋长刘振立涉嫌严重违纪违法,经党中央研究,决定对张又侠、刘振立立案审查调查。
中华人民共和国国防部
中央政治局委员、中央军委副主席张又侠,中央军委委员、中央军委联合参谋部参谋长刘振立涉嫌严重违纪违法,经党中央研究,决定对张又侠、刘振立立案审查调查。
中华人民共和国国防部