特集記事 2024.11.07

生成AIの長時間コンテンツ生成における課題と解決策｜「数秒の壁」を突破する方法はあるのか

INDEX目次

生成AIの進化は目覚ましく、テキストや静止画を制作させれば人間の創作に迫る水準にまで至っている。

しかし、動画生成の領域では依然として大きな技術的障壁が存在する。現状、生成AIによる動画制作は数秒程度の短尺コンテンツに限定されており、それを超えると内容の一貫性が失われ、支離滅裂な結果となってしまう。

本稿では、この「数秒の壁」を突破し、長時間の動画生成を可能にするための技術的課題と解決策について取り上げる。

さらに、SoraやVeo、Klingといった最先端の長時間動画生成AIを紹介し、それらの特徴と限界について解説する。先端的な生成AI動画を理解することは、この分野における技術的進展と今後の展望を見通すカギとなるだろう。

動画における生成AIの現状｜プロンプト入力で制作された動画も登場

生成AIの分野は急速に進化を遂げており、特にテキストや静止画の生成においては目覚ましい成果を上げている。そして、動画における生成AIの主な用途や現状は以下のようになっている。

プロモーションビデオやコマーシャルの動画作成

動画生成AIは、プロモーションビデオやCMの分野においてすでに活用されている。例えば、パルコ（PARCO）はキャンペーン用のCM「2023 PARCO HAPPY HOLIDAYS」において生成AIを用いたCMを制作している。本広告ではグラフィック、ムービー、ナレーション、音楽に至るまで生成AIにプロンプトを入力して制作された。

パルコの生成AIによるCM 

動画のエフェクト付与

既存の動画素材に対して、エフェクトを付与する編集タスクに生成AIが活用されている。Domo AIが提供するAIツールは、動画をアニメーション風にすることが可能。これらのアニメーション風動画はTikTokなどのSNSでの投稿が多数確認できる。

また、米国のロックバンドLinkin Parkは、「Lost」のミュージックビデオ（MV）を、生成AIで制作。映像には、アニメーション風のエフェクト付与の機能を持つ生成AI「Kaiber」を用いている。

Linkin Park「Lost」のMV

生成AIの長時間動画に対する課題

生成AIは、長時間の動画を作るが苦手である。次のような原因があるためだ。

人物等の一貫性維持の難しさ

生成AI動画は人物の髪型、服装、表情などの細かい特徴を長時間にわたって一貫して維持することが難しい。これらの細部の変化は、視聴者に違和感を与える大きな要因となる。

理由は、機械学習がさらに必要であるためだ。

物理法則の再現が不十分

生成AIで作成した動画は、物理法則を無視したような描写が多く見られる。

以下の動画をご覧いただきたい。

【最新の動画生成AI】男性に階段を昇り降りさせたら… 

本動画では、

階段に足がめり込む
跳躍しながら回転する際に、頭部が別の場所から現れる
1人の人物が2人に分裂する

というような不自然な描写がされている。

電力消費と計算資源の限界

生成AIの学習や推論には大量の計算資源が必要であり、電力消費も大きな課題となっている。例えば、ChatGPTの処理中の電力量は、Google検索に必要な電力量の最大25倍と言われている。

また、三菱総合研究所の調査によると、2040年の日本の総計算量は2020年比で最大十万倍以上に達する可能性があるとしている。生成AIが社会に浸透し、さらに基盤モデルが大規模化することが要因だ。

よって、電力消費が生成AIの計算資源のボトルネックとなる恐れがある。

解決策と技術的進展

では、どのように解決していくべきか。生成AIの課題に対応する3つのアプローチについて、取り上げる。

拡散トランスフォーマーモデルの適用

拡散トランスフォーマーモデルを適用することで、動画内の人物の一貫性保持が可能となる。その仕組みを下記に説明する。

パッチベースの表現：拡散トランスフォーマーは、トレーニング用の入力動画を「パッチ」と呼ばれる小さな時空間の単位に分解する。これは、長い文章を単語やフレーズに分けるのに似ている。この方法により、モデルは動画全体を一度に処理するのではなく、分割して扱える。
圧縮された潜在空間：動画は最初に低次元の潜在空間に圧縮される。圧縮することで、モデルはトランスフォーマー上で効率的に情報を処理できる。
トランスフォーマーアーキテクチャ：トランスフォーマーは、自然言語処理で長文を扱うのに優れた能力を示している。動画生成にこのアーキテクチャを適用することで、長時間の時間的依存関係を学習し、維持できる。
拡散モデルによる段階的な生成：ノイズから徐々にクリアな映像を生成していく拡散モデルのプロセスは、粗いスケッチから始めて徐々に詳細を追加していく芸術作品の制作過程に似ている。拡散モデルのトレーニングの計算量が増えるにつれて、動画の品質は向上し、長時間の動画も生成が可能となる。

物理学に基づくシミュレーションモデル

動画内の物体や人物の動きに物理的な整合性を持たせるため、物理学に基づいたシミュレーションモデルを組み込むというアプローチがある。生成AIに組み込むシミュレーションモデルは、次のようなものが考えられる。

1. 物理エンジン
物理法則を物体の動きに適用したモデルは、工学分野のシミュレーションで広く使われている。これを生成AIの人物やオブジェクトに適用することにより、動画内の物体はより自然に近いふるまいを示す。
また、物理エンジンは3Dモデルの中で物体や人物の動きを予測できる。これにより、視点が変化したり、遮蔽物で人物が隠れたりしても、その一貫性が向上することが期待できる。

2. 人体キネマティクスモデル
人体の骨格構造や関節の動きに基づいたモデルを導入することで、人物の動きは自然になり、キャラクターの一貫性維持が可能となる。

3. 流体力学モデル
流体力学モデルを導入することで、水や煙といった流体の動きを正確にシミュレートできる。
これらの技術を動画内の対象に適用することで、生成AIによる動画は自然な動きとなり、長時間の視聴に耐えうる動画生成のカギとなるだろう。

省電力対策

生成AIの消費電力によるボトルネックを解消するためには、処理中の省電力化は欠かせない。ここでは、省電力化の取り組みとして「省エネ型AIの活用」と「IOWN」（アイオン）の2つのアプローチを紹介する。

省エネ型AIの活用

生成AIのユースケースによって必要な規模の大きさの基盤モデルを使用することにより、消費電力を抑えられる。例えば、テキストベースの処理は小規模基盤モデルを、動画生成においては超大規模基盤モデルを使い分ける、という利用方法である。

三菱総合研究所の調査によれば、このような「適材適所」の活用をすることで、2040年のデータセンターでの計算量を最大シナリオの1/14程度に抑制できると推計した。

IOWN

IOWNとは、NTTが提唱する次世代基盤構想で、Innovative Optical and Wireless Networkの頭文字から名付けられた。

IOWNの構想は、コンピュータ内外のネットワークを光通信化することで、伝送経路を高速化・省電力化するというものである。NTTはこの光通信技術を2025年にボード接続デバイス用デバイスに適用し、2030年以降にチップ内に適用するというロードマップを作成している。

生成AI用のクラウドサーバーのアーキテクチャにIOWNを適用することで、サーバ内の処理電力抑制が期待できる。

長時間の動画生成が可能な生成AI

近年、長時間の動画生成に特化した生成AIが登場し、注目を集めている。ここでは、Sora、Veo、Klingという3つの先進的な動画生成AIについて、その特徴と動画の実力を取り上げる。

Sora

Sora（ソラ）は、OpenAIが2024年2月に発表した動画生成AIである。拡散トランスフォーマーを適用し、長時間の動画生成が可能な初めての生成AIとして業界に大きな衝撃を与えた。

特徴は以下の通り。

長時間動画生成：最大1分間の動画が生成可能
優れた一貫性：カメラが動いて視点が変更されても、対象物の同一性を保つことができる
動画を拡張する機能（Video-to-Video)：動画を入力して、元の動画から風景を変更するというようなエフェクト生成に対応する

以下のOpenAIのYouTube動画やOpenAIのウェブサイトでは、Soraが生成したサンプル動画を視聴できる。

Soraで制作された動画 

サンプルをいくつか視聴した限り、10秒以上の長時間にわたり、高画質で自然な動画が生成できていることを確認した。雪が降った東京の街を再現した動画では、街の風景と多くの人が歩いている様子が描写されており、さながら実写のようである。また、カメラアングルが変わってもキャラクターの一貫性が保たれているシーンも確認できる。

ただし、物理的な挙動が不十分な動画も見受けられる。例えば、こちら（リンク先、「Discussion」の見出しの直後にある動画）の液体の入ったグラスが倒れるサンプルにおいては、こぼれた液体がグラスからではなく床から出てくるなどの不自然な挙動が見られる。

Veo

Veo（ベオ）は、Google DeepMindが開発した動画生成AIである。2024年5月にGoogleの開発者向けイベント「Google I/O 2024」で発表され、注目を集めている。

特徴は以下の通り。

長時間動画生成：テキストプロンプトから1分を超える1080p解像度の動画を生成できる
マスク編集機能：生成された動画の特定部分のみを編集できる機能を備えており、人手による細かい動画編集が可能となる
画像入力対応：テキストだけでなく、画像も入力可能である

Google DeepMindのウェブサイトでは、Veoで生成されたサンプル動画を見ることができる。焼き鳥を焼いている様子や水中を漂うクラゲなど、高解像度で自然な描写が見られる。

Kling

Kling（クリング）は、中国の快手科技によって開発された動画生成AI。ユーザーが入力したテキストに基づいて、解像度1080p、最大2分間の動画作成が可能である。

その特徴は物理シミュレーションを搭載し、物理的に自然な映像表現が可能なことである。

Klingのウェブサイトでは、サンプル動画が視聴可能。屋外で牧草を食べる馬など、風景や人物の描写はかなり自然である。

一方で、物理シミュレーションを搭載といいつつも、物理的に不自然な動画も存在する。コップにミルクを注ぐサンプル動画では、瓶からコップにミルクを注ぐ直前から、コップ内のミルクの水位が上昇するという描写が見られる。

まとめ

本記事では、生成AIによる長時間動画生成の現状と課題、そしてその解決に向けた最新の技術動向について取り上げた。

現在、生成AIは長時間動画の生成においては大きな障壁が存在する。この問題の主な要因として、人物などのキャラクターの一貫性維持の難しさ、物理法則の不十分な再現、そして膨大な計算資源と電力消費であることを述べた。

OpenAIのSora、Google DeepMindのVeo、そして中国の快手科技によるKlingといった先進的なAIモデルでさえ、完璧な長時間動画生成には至っていない。物理的な挙動の不自然さなど、改善の余地は依然として存在する。

今後、これらの技術的課題が克服されれば、動画制作の効率化や新たな表現手法の創出など、幅広い分野での革新的な応用が期待される。現在では、生成AIによる長時間動画生成技術は発展の途上にあり、今後の進化に大きな注目が集まる分野といえるだろう。

参考文献：
※1：パルコ初の生成AI広告「HAPPY HOLIDAYSキャンペーン」が公開！グラフィック・ムービー・ナレーション・音楽まで全て生成AIにて制作！, PR TIMES（リンク）
※2：2023 PARCO HAPPY HOLIDAYS, YouTube（リンク）
※3：DomoAIウェブサイト, DomoAI（リンク）
※4：“アーティストのためにアーティストが作った”動画生成AI「Kaiber」を試す, ASCII（リンク）
※5：Lost [Official Music Video] - Linkin Park, YouTube（リンク）
※6：What it really takes to make the film you want using gen AI, Morten Legarth and Ben Hopkins, The Drum（リンク）
※7：ChatGPT consumes 25 times more energy than Google, The Brussels Times（リンク）
※8：【提言】生成AIの普及が与える日本の電力需要への影響, 三菱総合研究所（リンク）
※9：Video generation models as world simulators, OpenAI（リンク）
※10：サーバーにも光技術、NTTがIOWNで掲げる新型アーキテクチャー「DCI」の正体, 日経クロステック（リンク）
※11：Veo, Google DeepMind（リンク）
※12：KLING AIウェブサイト, KLING AI（リンク）

【世界の生成AIの技術動向調査やコンサルティングに興味がある方】

世界の生成AIの技術動向調査や、ロングリスト調査、大学研究機関も含めた先進的な技術の研究動向ベンチマーク、市場調査、参入戦略立案などに興味がある方はこちら。

先端技術調査・コンサルティングサービスの詳細はこちら

記事・コンテンツ監修

小林大三

アドバンスドテクノロジーX株式会社　代表取締役
野村総合研究所で大手製造業向けの戦略コンサルティングに携わった後、技術マッチングベンチャーのLinkersでの事業開発やマネジメントに従事。オープンイノベーション研究所を立ち上げ、製造業の先端技術・ディープテクノロジーにおける技術調査や技術評価・ベンチャー探索、新規事業の戦略策定支援を専門とする。数多くの欧・米・イスラエル・中国のベンチャー技術調査経験があり、シリコンバレー駐在拠点の支援や企画や新規事業部門の支援多数。企業内でのオープンイノベーション講演会は数十回にも渡り実施。