英伟达的通用大模型 Nemotron，开源了最新的 3400 亿参数版本

13:46 · Jun 16, 2024 · Sun

英伟达的通用大模型 Nemotron，开源了最新的 3400 亿参数版本。

本周五，英伟达宣布推出 Nemotron-4 340B。它包含一系列开放模型，开发人员可以使用这些模型生成合成数据，用于训练大语言模型（LLM），可用于医疗健康、金融、制造、零售等所有行业的商业应用。

高质量的训练数据在自定义 LLM 的响应性能、准确性和质量中起着至关重要的作用 —— 但强大的数据集经常是昂贵且难以访问的。通过独特的开放模型许可，Nemotron-4 340B 为开发人员提供了一种免费、可扩展的方式来生成合成数据，从而帮助人们构建强大的 LLM。

Nemotron-4 340B 系列包括基础、Instruct 和 Reward 模型，它们形成了一个 pipeline，用于生成训练和改进 LLM 的合成数据。这些模型经过优化，可与 NVIDIA NeMo 配合使用，后者是一个用于端到端模型训练的开源框架，包括数据管理、定制和评估。它们还针对开源 NVIDIA TensorRT-LLM 库的推理进行了优化。

英伟达表示，Nemotron-4 340B 现已可从 Hugging Face 下载。开发人员很快就能在 ai.nvidia.com 上访问这些模型，它们将被打包为 NVIDIA NIM 微服务，并带有可在任何地方部署的标准应用程序编程接口。

大语言模型可以帮助开发人员在无法访问大型、多样化标记数据集的情况下生成合成训练数据。

Nemotron-4 340B Instruct 模型创建了多样化的合成数据，模仿了现实世界数据的特征，有助于提高数据质量，从而提高自定义 LLM 在各个领域的性能和鲁棒性。

来源：机器之心