FlowのOmni Flashで動画生成してみた

一発勝負の「ガチャ動画」はもう古い。AIと対話しながら映像を編集する時代がやってきた。

今回はGoogleのクリエイター向けツールFlowで「日本語の正確性」と「ナレーション」という、日本のビジネスシーンで避けて通れない領域に挑む。

検証1 日本語のレンダリングとナレーションの整合性

■ 目的:
Google Flow のNano Banana Proで元画像を生成し、Omni Flashで動画への変換。正確な日本語レンダリング(看板・テロップ)、ナレーション生成の整合性を検証する。

■ 結果:
画像から生成された「ネオトーキョー」の風景は、雨に濡れた路面やネオンの明滅など、サイバーパンクの世界観が見事に再現されている。「最新AI浮世絵」「新宿」といった日本語看板の正確性は極めて高く、従来のAIでは難しかった「文字の描写」が正しく行われている点は特筆すべき進化だ。

一方、ナレーションに関しては、一部の語句が繰り返されるというAI特有の挙動が見られた。これは、AIが「完璧に制御されたプロ」ではなく、まだ「試行錯誤中のデジタル・エージェント」であることを物語っている。

クレジットという「予算」をどう使いこなすか

今回の検証中、動画生成で30クレジット、ナレーション修正で40クレジットを提示された(画像は0クレジット)が修正は失敗。

「この生成はGoogleのポリシーに違反している可能性があります。別のプロンプトをお試しいただくか、フィードバックを送信してください。」と表示された。

AIが不適切だと判断した要素(特定のキーワード、あるいは画像の描写内容)」がシステムによって弾かれた可能性があります。特に、「浮世絵風の巨大なホログラム」や「繁華街の看板」に含まれる特定の文字やグラフィックが、誤検知を誘発しているのかもしれません。

動画生成AIは、まだ「無限に使える道具」ではなく、「予算(クレジット)を割り振って取り組むプロジェクト」である。ビジネスで活用する際は、「どこまで作り込み、どこで妥協するか」というクオリティのコントロールがコスト管理に直結する。

技術の発展は素晴らしいが、今後AIサービス各社が値上げを続けた場合、個人と企業の間に「AI格差」が生まれる可能性ありますね。

検証2 革製ドキュメントケース

画像のプロンプト:
高級な革製ドキュメントケースが、柔らかな間接照明の当たった大理石のデスクの上に置かれている。質感は極めて精細で、革のシボ(凹凸)や縫い目のステッチがはっきりと見える。隣には万年筆が添えられている。背景はモダンで落ち着いたオフィス。洗練された高級感あふれる雰囲気。

動画のプロンプト
ナレーション:職人のこだわりが宿る、最高級のレザーケース。ビジネスの舞台を、より優雅に演出します。
テロップ:ビジネスの品格を、その手に。素材:イタリアンレザー、価格:50,000円

検証シリーズを終えて

この検証を通して、Omniという「道具」の可能性を強く実感した。

  1. 空間生成の圧倒的画動力:テキストと画像から、物理法則や質感を伴うシネマティックな空間を一発で作り上げる。
  2. 「ガチャ」から「対話」への進化:指示を繰り返すことで、生成された空間に対して後から調整が可能になった。
  3. 未完成の知性との協働:物理挙動の歪みや音声のループなど、AIはまだ「完璧」ではない。しかし、その「人間離れした創造性」と「時に見せる愛嬌あるミス」こそが、AIと働く面白さそのものだ。

頭の中にあるイメージを視覚化できる時代はすでに到来しているが、これがどこまで進化するのか期待は膨らむばかりだ。