テクストフラッシュ　AIによる美場ザットのもはらり...「Veo 3」の規能

Google I/O '25 Keynote出典@Googleキャプチャ — Google I/O ’25 Keynote出典@Googleキャプチャ

グーグルが人工知能（AI）ベースの映像生成技術の限界を再び引き上げました。現地時間の5月20日と21日、アメリカカリフォルニア州マウンテンビューで開催された「グーグル I/O 2025」開発者イベントで、グーグルディープマインドは自社の最新映像生成モデル「Veo 3」を電撃公開しました。

Veo 3は、ユーザーのテキストやイメージ説明に基づいて短い動画を自動生成するAIモデルです。前世代モデルVeo 2とは異なり、今回は「音声」まで自ら作成します。ただ単に画面だけを描き出すのではなく、登場人物のセリフ、背景雑音、音響効果などオーディオ要素が自然に統合された映像を生成することができます。グーグル側はこの機能を「映画製作者やストーリーテラーに新しい可能性を開く革新」と紹介しました。

高画質映像・物理シミュレーション・正確な命令理解

Veo 3の核心は実写に近い品質です。映像は4K解像度で出力され、動きの自然さ、物理法則の反映、質感の表現などが事実に近いです。例えば「雨が降る都市」を描写するテキスト入力だけで、車の音や人々のざわめきまで含まれたリアルな都市風景を生成することができます。

このモデルは、ユーザーが入力した説明をより正確に分析する「プロンプトリライター」機能も内蔵しています。これは、ユーザーの短い説明に対してAIが背景音、カメラアングル、人物のセリフなどを自動で補完する機能で、ユーザーは専門的な映像制作知識がなくても複雑なコンテンツを簡単に作成できます。

統合ツール「Flow」でプロレベルの編集サポート

Introducing Flow | Google’s New AI Filmmaking Tool出典@Google

グーグルは今回の発表とともにVeo 3を中心とした映像制作統合ツール「Flow」も紹介しました。Veo 3とイメージ生成モデルであるImagen 4、対話型AIであるGeminiを連動させ、ストーリー企画から映像完成までの創作過程を1つのプラットフォームで処理できるように設計されています。

Flowでは映像の最初のシーンと最後のシーンを設定したり、カメラの移動方向を指定することからキャラクター外形の一貫性維持、特定スタイルの反映、シーン編集など映像制作のほぼすべての過程を直接制御できます。加えて、オブジェクトの追加・削除、アウトペインティング、動きの制御、キャラクターアニメーション化など高級機能も含まれており、専門家レベルの成果物を得ることができます。

国内導入は未定…高コスト・アクセス制限の課題

現在Veo 3はグーグルの有料サブスクリプションサービスの一部として提供されています。アメリカでのみ優先提供されており、韓国ではまだ利用できません。最も高いレベルのアクセスは「Google AI Ultra」料金プランを通じて可能で、この場合月額249.99ドル（約36万ウォン）を支払う必要があります。この他にも様々な方式のアクセスが紹介されましたが、韓国ではすべての方式がまだ制限されています。

Veo 3が生成する映像の長さは現行基準で約8秒程度で、OpenAI「Sora」との比較で性能優位を記録しました。映像産業全般にわたり創作方式に変化をもたらす可能性があるという評価も出ています。

クリエイターには機会、業界には構造再編のシグナル

Veo 3は映像生成AI技術の新しい基準を提示し、今後コンテンツ制作方式全般を揺るがす潜在力を持っています。しかし、同時に慎重なアプローチと技術倫理に関する社会的議論も並行されるべき時点です。韓国のユーザーがこの技術を直接体験するまでには多少の時間がかかる見込みです。