英伟达发布Nemotron 3开源模型系列:混合MoE架构+100万token上下文
2025-12-16
来源:华尔街见闻
点击数: 38          作者:赵雨荷
  • 英伟达周一发布最新版系列开源人工智能模型“Nemotron”,以及配套的数据和库,旨在为各行各业提供透明、高效、可定制的智能体AI(agentic AI)开发能力。该公司表示,这一新模型家族在速度、成本和智能水平方面都将优于此前的产品。
    Nemotron 3模型系列包括Nano、Super和Ultra三个版本,引入了一项突破性的混合潜在专家混合(latent Mixture-of-Experts,MoE)架构,帮助开发者以规模化方式构建和部署可靠的多智能体系统。
    该公司表示,周一已经上线的Nemotron 3 Nano相比上一代产品效率更高,即运行成本更低,同时在处理包含多个步骤的长任务时表现更好。另外两款体量更大的版本预计将在2026年上半年推出。
    在Artificial Analysis Intelligence Index v3.0中,Nemotron 3 Nano在同规模模型中以52分排名领先。
    英伟达创始人兼首席执行官黄仁勋(Jensen Huang)表示:
    “开放式创新是人工智能进步的基础。通过Nemotron,我们正在把先进AI转变为一个开放平台,为开发者提供在大规模构建智能体系统时所必需的透明性和效率。”
    受此消息推动,英伟达股价周一开盘上涨近1.7%,报177.97美元。
    Nemotron3将提供三种不同规模的版本:Nemotron 3 Nano,拥有300亿参数,主要用于目标明确、效率要求极高的任务;Nemotron 3 Super,拥有1000亿参数,面向多智能体应用,并具备高精度推理能力;Nemotron 3 Ultra,配备更强大的推理引擎,参数规模约为5000亿,适用于更加复杂的应用场景。
    该公司表示,在构建Nemotron 3模型时,英伟达表示采用了一种混合型“专家混合”(Mixture-of-Experts,MoE)架构,以提升模型的可扩展性和效率。英伟达在新闻稿中称,通过这一架构,其新模型在构建多智能体自主系统时,能够为企业提供更高的开放性和性能表现。
    英伟达生成式AI软件副总裁Kari Briski在一次媒体简报会上表示,公司希望通过Nemotron3展示其从以往模型版本中不断学习并持续改进的承诺。
    Briski表示:
    “我们认为,凭借这种全新的混合专家架构,再结合100万token的上下文长度,我们在服务希望高度灵活定制模型、用于构建专用AI系统的广大开发者方面,具备独特优势。”
    英伟达表示,Nemotron 3模型的早期采用者包括埃森哲(Accenture)、CrowdStrike、Cursor、德勤(Deloitte)、安永(EY)、甲骨文云基础设施(Oracle Cloud Infrastructure)、Palantir、Perplexity、ServiceNow、西门子(Siemens)以及Zoom。
    该公司表示,Nemotron 3的100万token上下文能力,使模型能够在大型代码库、长文档、长时间对话以及聚合检索内容中持续进行推理。智能体不再依赖零碎的文本切分策略,而是可以在一个上下文窗口内同时保留完整证据集、历史记录和多阶段计划。
    在企业级检索增强生成、合规分析、多小时智能体会话或大型代码仓库理解等场景中,100万token上下文显著提升了事实一致性,并减少了上下文碎片化问题。
    英伟达已经在其多款模型中采用了混合Mamba-Transformer专家混合架构,其中包括Nemotron-Nano-9B-v2。
    该架构基于卡内基梅隆大学和普林斯顿大学的研究成果,引入了选择性状态空间模型,使模型在处理长文本信息时能够保持内部状态,同时降低计算成本,即便在超长上下文场景下也能保持高效率。
    MoE组件在不增加密集计算成本的前提下,大幅提升有效参数规模。每个token只会激活一部分专家,从而降低延迟、提升吞吐量。这一架构非常适合需要大量轻量级智能体并行运行的场景,例如同时生成计划、检查上下文或执行工具流程。
    英伟达指出,与Nemotron 2 Nano相比,这一设计“最多可实现4倍的token吞吐量提升”,并通过将推理token的生成量最多减少60%,显著降低了推理成本。
    Briski表示:
    “我们确实需要大幅提升效率,并降低单个token的成本。实现这一目标有多种方式,而我们选择的是通过模型架构层面的创新来完成。混合Mamba Transformer架构运行速度快得多、内存占用更低,因为它避免了为每一个token生成庞大的注意力映射和键值缓存。”
    英伟达还为Nemotron 3 Super和Ultra模型引入了另一项创新。Briski表示,公司在这些模型中部署了一项名为“潜在MoE(latent MoE)”的突破性技术,即专家在共享的潜在表示空间中工作,之后再映射回token空间。这种方式在相同推理成本下,可调用多达4倍数量的专家,从而在语义细节、领域抽象和多跳推理方面实现更高水平的专门化。
    她解释说:
    “模型中的这些专家共享一个公共核心,只保留一小部分是各自独有的。这有点像一群厨师共用一个大厨房,但每个人都有自己的调料架。”
    英伟达并不是唯一采用这种架构来构建模型的公司。AI21 Labs也在其Jamba模型中使用了类似方法,最近的例子是Jamba Reasoning 3B模型。
    该公司在新模型中还采用了多token预测(MTP),允许模型在一次前向计算中同时预测多个未来token,大幅提升长推理序列和结构化输出的吞吐效率。在规划、轨迹生成、长链推理或代码生成场景中,MTP可以降低延迟,提高智能体响应速度。
    Nemotron 3模型还受益于扩展强化学习训练。其中,规模更大的Super和Ultra模型采用了英伟达的4位NVFP4训练格式,使它们能够在现有基础设施上完成训练,同时不牺牲准确性。
    来自Artificial Analysis的基准测试结果显示,Nemotron模型在同等规模的模型中排名靠前。
    作为Nemotron3发布的一部分,英伟达还将向用户开放更多研究资源,包括发布研究论文和示例提示词,提供开放数据集,供用户查看和使用预训练token以及后训练样本。最重要的是,英伟达推出了一个全新的NeMoGym,让客户可以让模型和智能体进行“锻炼”。
    NeMoGym是一个强化学习实验环境,用户可以让模型在模拟环境中运行,用于测试模型在后训练阶段的表现。
    亚马逊云服务(AWS)也通过其NovaForge平台推出了类似工具,主要面向希望测试新训练的蒸馏模型或小型模型的企业用户。
    Briski表示,英伟达计划发布的后训练数据样本“在规模上比任何现有的后训练数据集都要大得多,而且使用限制非常宽松,开放程度很高”。
    英伟达指出,开发者正在寻找高度智能、性能强大且开放的模型,以便在需要时更好地理解并引导模型,这正是公司选择公开更多训练细节的原因。
    Briski表示:
    “如今的模型开发者面临一个非常棘手的三重难题。他们需要模型足够开放、足够智能,同时还要具备极高的效率。大多数开源模型往往迫使开发者在token成本、延迟和吞吐量等效率指标之间做出痛苦的取舍。”
    她补充说,开发者希望了解模型是如何训练的、训练数据来自哪里,以及他们可以如何对模型进行评估。
    媒体报道,英伟达最广为人知的业务是提供芯片,供OpenAI等公司用于训练其闭源模型,并以此向用户收费。但与此同时,英伟达也提供大量自有模型,涵盖物理仿真、自动驾驶等多个领域,并以开源软件形式发布,供研究人员或其他公司使用。包括Palantir Technologies在内的一些企业,已经将英伟达的模型整合进自身产品中。
    在中国科技公司推出的开源模型不断被科技行业广泛采用的背景下,英伟达选择以开源形式发布这些模型。相关中国公司包括DeepSeek、Moonshot AI以及阿里巴巴集团。此前,Airbnb已披露其正在使用阿里巴巴的开源模型Qwen。
    与此同时,媒体报道称,Meta正在考虑转向闭源模型路线,这可能使英伟达成为美国最主要的开源模型提供商之一。
    Briski表示,公司的目标是提供一个“人们可以信赖的模型”。
    “这也是为什么我们把它当作一个‘库’来对待。这也是为什么我们在软件工程层面上对它作出长期承诺。”

    媒体称,随着多智能体AI系统不断扩展,开发者正越来越多地在一个工作流中同时使用不同类型的模型:一方面依赖闭源专有模型来实现最先进的推理能力,另一方面则通过更高效、可定制的开源模型来降低成本。在同一工作流中,将任务在前沿级模型与Nemotron模型之间进行路由分配,可以在最大化智能水平的同时,优化token成本结构。

    开源的Nemotron 3模型还使初创公司能够更快地构建和迭代AI智能体,加速从原型到企业级部署的创新过程。General Catalyst和Mayfield旗下的多家被投公司,正在探索使用Nemotron 3来打造支持人机协作的AI“队友”。

    风险提示及免责条款

    市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。


热门评论
  • 暂无信息

验证码: 验证码,看不清楚?请点击刷新验证码

版权所有 Copyright(C)2015-2017 上海宽奇资产管理合伙企业     备案号:沪ICP备15036809号