Google 发布两款医疗开放模型:MedGemma 1.5 4B 与 MedASR

Google Research 发文宣布推出 MedGemma 1.5 4B(医疗影像+文本多模态模型更新),并集中介绍其“近期发布”的医疗语音转写模型 MedASR;两者均纳入 Health AI Developer Foundations(HAI-DEF)体系,并提供 Hugging Face 权重与 Vertex AI 部署入口。

MedGemma 1.5 目前仅提供 4B 多模态指令微调版本;新增支持 CT/MRI 三维体数据、全切片病理(WSI)多 patch 联合输入、纵向影像对比(结合既往片)、胸片解剖定位(框选)、医疗化验单等文档结构化抽取,以及文本 EHR 理解等任务。Google 在博文披露的对比中:MedGemma 1.5 在 CT 疾病相关发现分类准确率均值 61%(v1 为 58%),MRI 为 65%(v1 为 51%);胸片解剖定位在 Chest ImaGenome 基准上 IoU 38%(v1 为 3%);文本侧 MedQA 69%(v1 64%),EHRQA 90%(v1 68%)。

edASR 是基于 Conformer 的医疗领域自动语音识别(ASR)模型,面向医疗听写与医患对话转写;Google 在博文中将其作为与 MedGemma 组合的“语音→文本→推理”入口,并声称相较 Whisper large-v3 在胸片听写数据上 WER 5.2% vs 12.5%(错误减少 58%),在内部多专科听写基准上 WER 5.2% vs 28.2%(错误减少 82%)。

Google
huggingface
huggingface
 
 
Back to Top