NVIDIAは2026年6月4日、長時間動くAIエージェント向けのオープンモデル「NVIDIA Nemotron 3 Ultra」をDeveloper Blogで紹介しました。
「Nemotron 3 Ultra」は、調査、コーディング、業務ワークフローのように、AIが何度も考え、道具を使い、結果を確認しながら進める作業を支えるモデルです。単発のチャットではなく、長い手順を保ったまま推論を続けるための「司令塔」に近い役割を狙っています。
AIエージェントが人の補助役から、実際の業務を長く任される存在へ近づくほど、賢さだけでなく速さ、コスト、安定性、透明性が問われます。Nemotron 3 Ultraは、その条件をオープンモデルで満たそうとするNVIDIAの新しい一手です。
長時間エージェントの司令塔
Nemotron 3 Ultraは、5500億パラメータのMixture-of-Expertsモデルで、推論時には550億パラメータが有効になる構成です。NVIDIAはこのモデルを、複雑な計画や深い推論を担うエージェントのオーケストレーション向けに位置づけています。
長時間動くAIエージェントでは、モデルが計画を立て、ツールを呼び出し、結果を読み取り、必要に応じて別のサブエージェントへ処理を渡します。会話履歴や作業ログが長くなるほど、コストや遅延、目的からのズレが大きくなりやすくなります。
NVIDIAは、Nemotron 3 Ultraをこうした難しい判断を担うモデルとして使い、通常の処理はより軽いモデルに任せる「モデル群」の考え方を示しています。
5倍高速と30%低コストの意味
NVIDIAによると、Nemotron 3 Ultraは同クラスのオープンモデルと比べて最大5倍高いスループットを実現し、長時間エージェントの作業をより速く進められるとしています。
また、SWE-benchやTerminal-Bench 2.0を使った実験では、比較対象のモデルより少ない総トークン数、少ないターンあたりトークン数でベンチマークを完了したと説明されています。これにより、エージェント型タスクの完了コストを最大30%下げられるとしています。
ここでのポイントは、単に1回の応答が速いという話ではありません。調査やコード修正のように何十回もやり取りする作業では、毎回の推論コストが積み上がります。長く動くエージェントほど、速度とトークン効率の差が実用性に直結します。
MambaとTransformerの組み合わせ
Nemotron 3 Ultraでは、長文脈を効率よく扱うためにMamba層とTransformer層を組み合わせています。Mamba層は長いシーケンスでの効率を高め、Transformer層は大きな文脈の中から特定の情報を正確に取り出す役割を担います。
さらに、NVFP4量子化により、Hopper、Blackwell、Ampereの各NVIDIA GPUアーキテクチャで同じチェックポイントを利用できるとされています。Blackwell環境では、BF16と比べて同じ対話性で最大5倍のスループットを出せると説明されています。
LatentMoEは、推論、コード生成、ツール呼び出し、ドメイン特化の処理にまたがるワークフローで、より効率的に専門家を振り分けるための仕組みです。Multi-token predictionは、次の複数トークンをまとめて予測することで、長い出力や複数ターンの処理を速めます。
教師モデルから学ぶMOPD
Nemotron 3 Ultraでは、Multi-Teacher On-Policy Distillation、略してMOPDという学習手法も使われています。これは、複数の専門教師モデルからフィードバックを受けながら、モデル自身が生成した試行を使って改善していく方法です。
NVIDIAによると、10を超えるドメイン特化教師モデルが用意され、それぞれの専門領域でNemotron 3 Ultraの出力を評価します。法律、知識検索、コード、ツール利用など、分野ごとの判断を強める狙いがあります。
この仕組みは、1つの巨大モデルをただ一度学習して終わりにするのではなく、教師側と学生側を反復的に強めていく点が特徴です。企業や研究用途で特定分野へ適応させたい場合にも、重要な方向性になります。
オープンモデルで透明性を押し出す
NVIDIAは、Nemotron 3 Ultraについて、重み、データ、レシピを含めてオープンにすると説明しています。モデル素材にはLinux FoundationのOpenMDW-1.1ライセンスが使われ、開発者や企業が利用、改変、再配布、展開しやすい条件を整える狙いがあります。
学習データ面では、10兆トークン規模の事前学習基盤に加え、法律、Wiki由来の合成データ、GitHub由来データなどを追加したとしています。さらに、SFTサンプル、RLタスク、RL環境も新たに公開されます。
生成AIの性能競争では、モデルの賢さだけでなく、どのようなデータやレシピで作られたのかを確認できることも価値になります。とくに企業や各国のAI開発では、透明性や来歴を確認しやすいモデルが選択肢になりやすくなります。
NemoClawとOpenShellで安全な実行環境へ
記事では、NemotronモデルがHermes AgentやOpenClawなどのエージェントフレームワークと連携することも紹介されています。
NVIDIA OpenShellは、エージェントや生成されたコードを実行するための安全なランタイム環境として位置づけられています。NemoClawは、その環境をまとめるオープンソースのブループリントで、OpenShellランタイムを導入し、Nemotronのようなオープンモデルと組み合わせやすくするものです。
長時間動くAIエージェントでは、モデルの出力だけでなく、どこでコードを実行するのか、どの操作を許すのか、失敗時にどう止めるのかが重要になります。Nemotron 3 Ultraの発表は、モデル単体の話であると同時に、エージェント実行基盤全体の整備にもつながっています。
安全性と音声対応の追加モデル
NVIDIAはあわせて、Nemotron 3.5 Content SafetyとNemotron 3.5 ASRも紹介しています。
Nemotron 3.5 Content Safetyは、テキスト、画像、組み合わせ入力に対して、危険またはポリシー違反の可能性がある内容を分類する4B規模のガードレールモデルです。23の安全カテゴリと12言語を対象にするとされています。
Nemotron 3.5 ASRは、音声ネイティブなエージェント向けの音声認識モデルです。英語版で使われていたキャッシュ対応ストリーミング構成を引き継ぎ、40以上の言語に対応するチェックポイントとして説明されています。
オープンな高性能モデル競争が進む
Nemotron 3 Ultraは、AIエージェントを長く、速く、安く、より安全に動かすためのオープンモデルとして登場しました。
特に注目したいのは、モデル性能だけでなく、推論効率、コスト、実行環境、データ透明性、ライセンスまで含めて整えている点です。NVIDIAにとってはGPU基盤の強みを生かす発表であり、開発者にとってはオープンモデルで長時間エージェントを構築する選択肢が増える動きです。
一方で、実際の業務導入では、ベンチマーク上の性能だけでなく、自社データでの精度、運用コスト、セキュリティ設定、エージェントが実行できる操作範囲を慎重に確認する必要があります。オープンで高性能なモデルが増えるほど、それをどう安全に使うかが次の焦点になります。



