イマシブ記事

【WWDC 2025レポート】AIVを支える4つの柱と、映像・音声技術の詳細解説

Apple Immersive Videoフォーマットの全貌:高忠実度な没入体験を実現する技術

【WWDC 2025レポート】AIVを支える4つの柱と、映像・音声技術の詳細解説

Apple Vision Proで提供されるApple Immersive Video (AIV) は、単なる360度ビデオとは一線を画す、極めて高い没入感とリアリティを提供します。

本記事では、AIVを支える技術的な特徴、特に「なぜAIVが他のフォーマットと異なるのか」という点に焦点を当て、制作エコシステムとデリバリーの仕組みを解説します。


1. AIVを定義する4つの基本的な柱

AIVは、観客に「その場にいる」という深い感覚(Fidelity of Presence)を提供するために、以下の4つの要素を基礎として設計されています。

  1. プレゼンスの忠実度(Fidelity of Presence)

    [00:48] AIVのエコシステムは、人間が認識できる限界、すなわち「20/20ビジョン(視力1.0)」に近い完璧な忠実度で世界をキャプチャし、レンダリングし、配信することを目指しています。

  2. 周辺視野(Peripheral FOV)

    [01:07] AIVは180度から230度の視野(Field of View)を提供します。これは、視聴者の快適性と没入感を両立させるためです。

    • 快適性: 観客が後ろを振り向く動作は不自然に感じられるため、[01:24] 空間オーディオで体験を完結させます。

    • 効率性: 視聴者の通常の視野にピクセルを集中させることで、[01:58] 忠実度を損なうことなく、ストリーミング効率を最大化します。

  3. ダイナミックな特注投影(Dynamic Bespoke Projection)

    [02:09] AIVには、デフォルトまたは標準の投影方式が存在しません。代わりに、クリップはライブアクションカメラやCGカメラから得られた独自のレンズメタデータ(ILPDファイル)を保持します。これにより、編集前にクリップを標準形式(例: Lat/Long)に変換する必要がなくなり、編集・レンダリング・ストレージの効率が大幅に向上します。

  4. 現実世界スケール(World Scale)

    [02:49] AIVは、オブジェクトまでの距離感を正確に認識させ、リアリティを高めます。Vision Proはキャプチャされたピクセルを歪みやステッチのアーティファクトなしに再現するため、[03:00] 直線は直線に見え、オブジェクトは自然な丸みを持ち、正確な立体視(Stereoscopic)キューを提供します。

ILPDファイルの役割

[03:21] World Scaleを実現するために不可欠なのが、ILPDファイル(Immersive Lens Processing Data File)です。この小さなJSONファイルには、AIV対応カメラのレンズが個別にプロファイリングされた「光学的な指紋」が格納されており、[03:57] すべてのクリップに記録されます。これにより、高度なビジュアルエフェクト(VFX)ワークフローでも、手動のレンズ補正作業が不要になります。


2. AIVの解像度とシンプルさ:「視力20/20」を目指す

K値からPPD(Pixels Per Degree)へ

[06:01] 従来の「K値」(4Kや8Kなど)は、画像コンテナ内のピクセル数しか示しません。AIVでは、人間の視覚能力にどれだけ迫れるかを示す「アキュイティ(Acuity:鮮明度)」をPPD(Pixels Per Degree:1度あたりのピクセル数)で評価します。

  • 20/20ビジョンの基準: 人間の視力1.0(20/20ビジョン)は、約60 PPDに相当するとされています [07:04]。

  • AIVの目標: [08:29] AIVは、この「60 PPD」のベンチマークに近づくことを目指しています。AIV対応カメラは最低でも440 PPD以上でキャプチャし、[08:37] 現実世界に近い鮮明度を保証します。

制作ワークフローの簡素化

[08:50] 従来のVR制作が複雑であったのに対し、AIVは「シンプルであること」をスーパーパワーとしています。

  • シングルファイル運用: [10:41] 左右の映像トラック、オーディオトラック、そしてすべてのメタデータ(レンズキャリブレーション、モーションデータ、USDZアセットなど)を一つのファイルに格納・転送します。これにより、サイドカーファイルや複数のファイルを管理する必要がなくなり、編集作業が2Dの編集のように感じられます。


3. AIVのデリバリーと高効率エンコード技術

AIVの制作フォーマットはProRes(非圧縮またはRAW)ですが、配信にはAIVUファイル(QuickTimeベース)を使用します。[12:06] 配信時には、高解像度のコンテンツを効率的にストリーミングするために、以下の技術が適用されます。

(1) MV-HEVCエンコーディング

[12:43] 個別のProResトラックは、MV-HEVC(Multi-View HEVC)ビデオトラックにトランスコードされます。これはHEVCコーデックの派生であり、[12:51] 左右のビュー(Multi-View)を効率的に圧縮します。

(2) AIV Foviation(AIV中心窩投影)

[15:08] 配信時の画像サイズを縮小しつつ、最も重要なデータを保持するための特殊なイメージングプロセスです。

  • 目的: [15:24] 制作時の11K x 11Kに近い高解像度イメージを、AIVの配信ターゲットサイズである片目あたり4320 x 4320に収めることです。単純なダウンスケールではPPDが低下するため、これは不適切です。

  • 仕組み: [15:49] AIV Foviationは、画像の最も重要な部分(通常は中央領域)を優先的に保持し、過剰サンプリングの効果を利用して、[16:38] 低いデータレートで高いアキュイティを維持します。これはクリップごとに調整可能です。

(3) モーションデータの活用

[17:10] AIVモーションメタデータは、すべてのショットに組み込まれており、制作プロセス全体で活用されます。

  • 快適性の管理: Apple Immersive対応のNLE(ノンリニア編集システム)では、[17:37] カメラの物理的な動きを視覚化できます。これにより、クリエイターは観客の快適性や、物語の感情的な起伏に合わせて、カメラの動きを事前に計画・調整できます。


4. 最後に:オーディオの重要性

[18:45] 没入体験において、オーディオは残りの80%を担うほど重要です。AIVでは、音響トラックを軽量なAPAC(Apple Positional Audio Codec)にエンコードし、空間オーディオフォーマットASAFとともに、聴覚を通じたリアリティを提供します。


元動画情報:


(この記事は、上記のYouTube動画のトランスクリプトを基に作成・翻訳されたものです。)

-イマシブ記事