ActCam:ゼロショットによるカメラと3Dモーションの統合制御による動画生成

#Tech

ActCam:ゼロショットによるカメラと3Dモーションの統合制御による動画生成 カメラとモーションの統合制御

本研究で提案されるActCamは、俳優の動きとカメラの軌道を同時に細かく制御する、ゼロショット型の動画生成手法です。

このモデルは、事前学習された画像から動画への拡散モデルを基盤とし、ソース動画からキャラクターのモーションを新しいシーンに転送し、フレーム単位でカメラの内外パラメータを制御します。

ActCamは、最初のデノイジング段階でポーズと疎な深度情報を用いてシーン構造を強制し、その後はポーズのみで詳細なディテールを洗練させる二段階の条件付けスケジュールを採用しています。

その結果、ActCamは特に大きな視点変化の状況下で、カメラの追従性やモーションの忠実性を大きく向上させることが実証されました。

動画生成において、俳優の動き(キャラクターモーション)とカメラの動き(カメラトラジェクトリ)の両方を細かく制御することは、芸術的な表現を実現する上で非常に重要です。今回、研究チームが「ActCam」というゼロショット手法を発表しました。これは、既存の画像から動画を生成するAIモデルを活用し、キャラクターの動きとカメラの動きを同時に、かつ高精度で制御することを可能にする技術です。

キャラクターとカメラの同時制御

ActCamは、事前に学習された画像から動画を生成する拡散モデル(diffusion model)を基盤としています。このモデルに、シーンの奥行き(depth)やキャラクターのポーズ(pose)といった条件付け情報(conditioning)を与えることで動作します。ActCamの最大の特徴は、あるソース動画のキャラクターの動きを、新しいシーンに転送しつつ、フレームごとにカメラの内部パラメータや外部パラメータを制御できる点にあります。これにより、単にキャラクターを動かすだけでなく、まるでプロのカメラマンが撮影したかのような映像を作り出すことが可能になります。

幾何学的に整合性の取れた条件付け

ActCamは、ソース動画とターゲットのカメラモーションを入力として受け取り、フレーム間で幾何学的に矛盾のないポーズと奥行きの条件付け情報を生成します。生成プロセスは二段階の条件付けスケジュールで行われます。初期のノイズ除去段階では、ポーズと疎な奥行き情報を用いてシーンの構造を厳密に定義します。その後、奥行き情報を外し、ポーズのみでガイダンスを行うことで、過度な制約をかけずに高周波のディテールを洗練させていく仕組みです。

多様な環境下での性能検証

この技術は、多様なキャラクターの動きや、難易度の高い視点変化(viewpoint changes)を含む複数のベンチマークで評価されました。その結果、ActCamはポーズのみを制御する手法や、他のカメラ・ポーズ制御手法と比較して、カメラの動きへの忠実度(camera adherence)とモーションの忠実度(motion fidelity)を向上させることが確認されました。特に、大きな視点変化がある状況下で、人間の評価においても高い評価を得ているとのことです。

まとめ

ActCamは、追加の学習なしに、複雑なカメラとモーションの同時制御を実現した点が注目されます。この技術は、映画制作や高度なアート表現をAIで実現する分野において、大きなブレイクスルーをもたらす可能性を秘めていると見られています。

原文の冒頭を表示(英語・3段落のみ)

View PDF

HTML (experimental)

Abstract:For artistic applications, video generation requires fine-grained control over both performance and cinematography, i.e., the actor's motion and the camera trajectory. We present ActCam, a zero-shot method for video generation that jointly transfers character motion from a driving video into a new scene and enables per-frame control of intrinsic and extrinsic camera parameters. ActCam builds on any pretrained image-to-video diffusion model that accepts conditioning in terms of scene depth and character pose. Given a source video with a moving character and a target camera motion, ActCam generates pose and depth conditions that remain geometrically consistent across frames. We then run a single sampling process with a two-phase conditioning schedule: early denoising steps condition on both pose and sparse depth to enforce scene structure, after which depth is dropped and pose-only guidance refines high-frequency details without over-constraining the generation. We evaluate ActCam on multiple benchmarks spanning diverse character motions and challenging viewpoint changes. We find that, compared to pose-only control and other pose and camera methods, ActCam improves camera adherence and motion fidelity, and is preferred in human evaluations, especially under large viewpoint changes. Our results highlight that careful camera-consistent conditioning and staged guidance can enable strong joint camera and motion control without training. Project page: this https URL.

※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。

元記事を読む ↗