Google 发布两款医疗开放模型：MedGemma 1.5 4B 与 MedASRGoogle Research 发文宣布推出 MedGemma 1.5 4B（医疗影像+文本多模态模型更新），并集中介绍其“近期发布”的医疗语音转写模型 MedASR；两者均纳入 Health AI Developer Foundations（HAI-DEF）体系，并提供 Hugging Face 权重与 Vertex AI 部署入口

08:00 · Jan 14, 2026 · Wed

Google 发布两款医疗开放模型：MedGemma 1.5 4B 与 MedASR

Google Research 发文宣布推出 MedGemma 1.5 4B（医疗影像+文本多模态模型更新），并集中介绍其“近期发布”的医疗语音转写模型 MedASR；两者均纳入 Health AI Developer Foundations（HAI-DEF）体系，并提供 Hugging Face 权重与 Vertex AI 部署入口。

MedGemma 1.5 目前仅提供 4B 多模态指令微调版本；新增支持 CT/MRI 三维体数据、全切片病理（WSI）多 patch 联合输入、纵向影像对比（结合既往片）、胸片解剖定位（框选）、医疗化验单等文档结构化抽取，以及文本 EHR 理解等任务。Google 在博文披露的对比中：MedGemma 1.5 在 CT 疾病相关发现分类准确率均值 61%（v1 为 58%），MRI 为 65%（v1 为 51%）；胸片解剖定位在 Chest ImaGenome 基准上 IoU 38%（v1 为 3%）；文本侧 MedQA 69%（v1 64%），EHRQA 90%（v1 68%）。

edASR 是基于 Conformer 的医疗领域自动语音识别（ASR）模型，面向医疗听写与医患对话转写；Google 在博文中将其作为与 MedGemma 组合的“语音→文本→推理”入口，并声称相较 Whisper large-v3 在胸片听写数据上 WER 5.2% vs 12.5%（错误减少 58%），在内部多专科听写基准上 WER 5.2% vs 28.2%（错误减少 82%）。

Google
huggingface
huggingface