NVIDIA 推出 NVILA-8B-HD-Video,瞄准 4K 长视频理解
NVIDIA 已上线 NVILA-8B-HD-Video。这是一款 8B 参数的多模态大模型,面向高分辨率长视频理解与问答任务。官方模型卡显示,它可处理最高 4K 分辨率、最长 1K 帧的视频输入,并以文本形式输出结果;模型同时注明仅供研究与开发使用。这个模型建立在 AutoGaze 和 NVILA-Lite-8B 之上。核心做法是在进入视觉编码器或语言模型之前,先去掉视频中的冗余 patch。按照 NVIDIA 给出的说明,AutoGaze 最多可将视频 token 数压缩 100 倍,并将 ViT 和 LLM 的延迟分别最多降低 19 倍和 10 倍,从而把 4K、1K 帧级别的视频理解推进到更可部署的效率区间。

论文摘要显示,配合 AutoGaze 后的模型在 VideoMME 上达到 67.0%,并在论文同时提出的 HLVid 基准上取得了比基线高 10.1%、比此前最佳模型高 4.5% 的结果。对行业而言,这类模型的意义不在于单纯“支持视频输入”,而在于开源视频理解系统开始向更长时长、更高分辨率和更细节密度的视频场景推进。

huggingface
 
 
Back to Top