Google Gemini Omniとは

Gemini Omniとは、テキスト、画像、音声、動画といったあらゆる入力を組み合わせて高品質な動画を生成できる新モデル。対話形式で「照明を暗くする」などの指示を出し、キャラクターや物理表現の一貫性を保ちながら既存の動画を編集することも可能です。

Gemini Omniと従来のVeo（ヴェオ）との決定的な違いは、単に綺麗な映像を作るだけのメディア生成モデルだったVeoに対し、Gemini Omniは「Geminiの高度な知能と動画生成が完全に融合したクリエイティブパートナー」である点です。

具体的には、これまでの動画生成AIと比べて以下の3点が大きく異なります。

会話で動画を編集・修正し続けられる（文脈の保持）従来のVeoなどは、テキストを入力して一発勝負で動画を出力するシステムでした。もし「少しイメージと違う」と思ったら、プロンプトを書き直してまたゼロから作り直すしかありませんでした。一方、Gemini Omniは、生成した動画やアップロードした動画に対して、対話形式で「照明をもう少し暗くして」「キャラクターの服装はそのままに、別のポーズを取らせて」といった指示を追加できます。前の文脈やキャラクターの一貫性を保ったまま、会話で動画をリミックス・編集していけるのが最大の違いです。
単なる映像の生成ではなく「世界のシミュレーション」 Veoは映像のパターンを学習して出力していましたが、Gemini OmniはGeminiが持つ歴史、生物学、文化、そして物理法則の理解がベースにあります。そのため、映像の中の物体の動きやキャラクターの行動が「現実の世界がどう動くか」という理屈に沿ってシミュレートされます。結果として、動画の破綻や不自然さが劇的に少なくなっています。
複数の写真や動画を組み合わせられる柔軟性 Veoはテキストか1枚の画像からの生成が基本でしたが、Gemini Omniではテキストに加えて、複数の写真、さらには1本の動画を同時に組み合わせてインプットできます。手持ちのいくつかの写真の要素をブレンドして、新しい動画の世界観を作るといった複雑なインプットが可能です。