NVIDIA 推出 NVILA-8B-HD-Video，瞄准 4K 长视频理解NVIDIA 已上线 NVILA-8B-HD-Video

04:16 · Mar 14, 2026 · Sat

NVIDIA 推出 NVILA-8B-HD-Video，瞄准 4K 长视频理解

NVIDIA 已上线 NVILA-8B-HD-Video。这是一款 8B 参数的多模态大模型，面向高分辨率长视频理解与问答任务。官方模型卡显示，它可处理最高 4K 分辨率、最长 1K 帧的视频输入，并以文本形式输出结果；模型同时注明仅供研究与开发使用。这个模型建立在 AutoGaze 和 NVILA-Lite-8B 之上。核心做法是在进入视觉编码器或语言模型之前，先去掉视频中的冗余 patch。按照 NVIDIA 给出的说明，AutoGaze 最多可将视频 token 数压缩 100 倍，并将 ViT 和 LLM 的延迟分别最多降低 19 倍和 10 倍，从而把 4K、1K 帧级别的视频理解推进到更可部署的效率区间。

论文摘要显示，配合 AutoGaze 后的模型在 VideoMME 上达到 67.0%，并在论文同时提出的 HLVid 基准上取得了比基线高 10.1%、比此前最佳模型高 4.5% 的结果。对行业而言，这类模型的意义不在于单纯“支持视频输入”，而在于开源视频理解系统开始向更长时长、更高分辨率和更细节密度的视频场景推进。

huggingface