メッシュはドアではない
世界モデルはまずゲームエンジンで勝負がつき、それからフィジカルAIへと移っていく理由
現実は英語を話さない。状態を話す。
大規模なゲーム開発チームなら誰もが知っている破綻のかたちがある。プレイヤーが世界を変えても、ゲームの意味論的な世界は更新されない。
狭い路地を塞ごうと車両を引きずり込む。見た目には路地は閉じている。物理的にも衝突判定はそこにある。それでも歩行者はそのまま通り抜けていく。ナビメッシュがオフラインで焼き込まれていて、「この空間はいま塞がれた」と一度も学んでいないからだ。小道具の山を蹴り倒して新たな遮蔽を作る。それでも遮蔽システムは古いタグ付きノードを指したままだ。角を曲がると、NPCは直前の三十秒がまるで起きなかったかのように振る舞う。彼らの内なるシーン表現が、すでに動いてしまった世界の上にかぶさった薄い覆いにすぎないからだ。
これらは抽象的な意味での「NPCの知能」の問題ではない。表現の問題である。エージェントはプレイヤーがいる世界について推論しているのではない。その世界を簡略化した、部分的に古びたモデルについて推論しているのだ。
世界モデルは、その隔たりを埋めようとする試みである。より巧妙なビヘイビアツリーを書くことによってではなく、介入のもとでも整合を保つ、状態を持った世界の表現を維持することによって。オブジェクトは遮蔽をまたいで同一性を保つ。アフォーダンスはシーンの変化とともに更新される。制約は制約のままにとどまる。システムは行動のもとで一歩先へ進めても、矛盾を生まない。
ここでゲームが重要なのは、ゲームがすでに世界モデルの必要とするループを回しているからだ。観測し、行動し、状態を更新し、繰り返す。エンジンとは、制約と永続性と計装と再生を備えた、産業グレードの世界ランタイムである。世界モデルが、印象的なメディアではなく信頼できるシステムになっていくのなら、それはこのランタイムへと収束していく。
同じ理由で、次に来るのはロボティクスだ。フィジカルAIも同じループであり、ただし失敗には質量とコストがある。
クリップから世界へ
簡単なテストがある。
それをステップできるか。
サンプリングは未来を一つ求め、一つ返す。ステッピングは行動を一つ適用し、次の状態がその行動と直前の状態と世界の規則に整合するよう強制する。ステップできるようになった途端、正しさは美的なものであることをやめる。それは振る舞いの問題になる。
システムの言葉でいえば、世界とは状態遷移の過程である。決して完全には観測できない、底に横たわる状態 s_t がある。行動 a_t を取る。状態は規則とランダム性のもとで変化する。何かを観測し、また行動する。このループをコンパクトに書くと次のようになる。
真剣な世界モデルとは、この過程を学習で近似したものである。要点はピクセルを予測することにあるのではない。整合した内部状態を前へ運び、世界に起きたことを「忘れさせ」ずに、エージェントが計画し行動できるようにすることにある。
多くの現行システムで壊れるのは、まさにそこだ。環境は更新されるのに、エージェントが用いる表現は更新されない。ナビメッシュは静的なまま。遮蔽グラフは静的なまま。アフォーダンスは脆いタグのまま。エージェントが推論する世界は、プレイヤーが見ている世界から離れて漂っていく。
世界モデルが狙うのは、その欠けた能力である。介入のもとで更新され、長い地平にわたって安定を保ち、ステッピングを支える表現だ。
そこから、「playable」の背後にある実際的な問いへとつながる。
playableとは実のところ何を要するのか。
メッシュはドアではない
「プレイ可能」は、しばしばそれが一つの二値の属性であるかのように使われる。だがそうではない。そこには段階があり、その段階こそが「3D環境を生成する」ことと「世界を生成する」ことがなぜ同じではないのかを説明する。
Walkable とは、空間が整合し、衝突判定が働き、ナビゲーションが有効であることを意味する。 Interactable とは、オブジェクトが同一性とアフォーダンスと永続的な状態を持つことを意味する。 Gameable とは、規則がループを生むことを意味する。目標、失敗、進行。 Authorable とは、作り手が編集でき、その編集が残ることを意味する。
「3D」から「playable」への飛躍は、その大半が interactable の層にある。
ドアのように見えるメッシュはドアではない。ドアとは、ジオメトリに衝突判定が加わり、ヒンジ制約があり、インタラクションのアフォーダンスがあり、状態変数(開/閉、施錠/解錠)があり、そして状態を意味あるものにする規則ロジックがあるものだ。床は三角形ではない。それは世界が変われば更新されねばならないナビゲーション意味論を備えた、踏破可能な面である。遮蔽は視覚的なシルエットではない。それはジオメトリと視線制約に結びついた、クエリ可能なアフォーダンスである。
世界モデルが製品になるのは、これらの層で実行可能な世界を生み出せるようになったときであって、より美しい映像を生み出せるようになったときではない。
そしてそこにこそ本当のボトルネックが現れる。生成された世界の状態は、実行可能な世界の振る舞いではない。
世界モデルへの三つの道
現行の取り組みの大半は、三つの陣営にまとめられる。実際には境界がぼやけるが、意図ははっきり分かれている。
陣営A、レンダー優先の未来(OpenAIのSora) Soraのたぐいのシステム。ネイティブな出力は動画であり、「世界」はもっともらしいフレームのために最適化された潜在表現の内側に暗黙裡にある。これらのモデルは、見た目と短い地平の運動について価値ある事前分布となる。優れたコンテンツエンジンでもある。
その既定のインターフェイスはサンプリングだ。ステッピングと永続性は、たいていその上に構造を重ねて初めて得られる。
陣営B、インタラクティブな動画世界(DeepMindのGenie) Genieのたぐいのシステム。出力はやはり2Dフレームだが、内部状態を保ちながら一行動ずつステップされるよう設計されている。陣営Aとの違いは解像度ではない。行動が第一級であり、介入のもとでの整合が中心的な要件である、という点だ。
陣営Aは未来をサンプリングする。陣営Bは行動のもとでシミュレートする。
陣営C、明示的な3D世界の構築(World LabsのMarble) Marbleのたぐいの手法。世界の状態は、新たな視点と編集と既存パイプラインへの書き出しを支える3D構造として明示的であるべきだ、という賭けである。視点の整合性と編集可能性は、動画の潜在表現から創発するのを願う性質としてではなく、表現そのものに組み込まれている。
陣営Cはエンジンにとって自然に読み取れる。エンジンはすでに明示的な3D状態の上で動いているからだ。
陣営は組み合わさっていく。ありそうな最終形はハイブリッドであり、動画の事前分布と、インタラクティブなロールアウトと、役立つところでは明示的な構造とを使う。
実際のボトルネックは、いずれにも共通している。
生成された世界の状態は、実行可能な世界の振る舞いではない。
欠けている層はコンパイラである
世界モデルは世界の状態を生成する。エンジンは世界の力学を実行する。難しいのはその翻訳だ。
これをコンパイルの問題として扱おう。
陣営Cはこれを最も見えやすくする。構造を出力するからだ。正しい出力ターゲットは「メッシュ」ではない。エンジンが取り込める、構造化された世界記述である。
ほどよい中間表現は、レンダーではなくシーン記述のかたちをとる。
{
"entities": [
{
"id": "door_17",
"type": "door",
"transform": { "pos": [1.2, 0.0, -3.4], "rot": [0, 90, 0] },
"mesh": "door_mesh_A",
"materials": ["painted_metal"],
"affordances": ["open", "close"],
"state": { "open": false, "locked": true },
"physics": { "mass": 18.0, "hinge_axis": [0, 1, 0] }
}
]
}
要点はJSONではない。要点は規律だ。モデルがエンジンに食わせるつもりなら、出力は単なるジオメトリではなく、構造化された世界記述のかたちでなければならない。エンティティには安定したIDが要る。型は明示されねばならない。アフォーダンスと状態変数は表現可能でなければならない。物理的な性質は、後付けではなく、それが効くところに存在しなければならない。
そこからエンジンは、コンポーネントを取り付けることで構造を実行可能な意味論へとコンパイルできる。「door」はメッシュではない。それは衝突判定になり、ヒンジ制約になり、インタラクションコンポーネントになり、状態の複製になる。「pickup」は把持アフォーダンスとインベントリ意味論を備えた剛体になる。「ground」は衝突ジオメトリとナビメッシュの焼き込みになる。「hazard」はボリュームとダメージ規則になる。プレイ可能性が決まるのはここだ。walkable な世界には有効な衝突判定とナビゲーションが要る。interactable な世界には同一性とアフォーダンスと永続的な状態が要る。gameable な世界には状態を帰結へと変える規則システムが要る。
そしてここにこそ、最も手強い実際的な反論が現れる。意味論的な誤りは破滅的だ。「walkable な床」での一パーセントの誤り率は、ゲームをプレイ不能にする。それはこの手法を捨てる理由ではなく、コンパイラ層が重要である理由だ。真剣なパイプラインは不確かさを保守的に扱う。自由形式のタグではなく、型付きスキーマを使う。当て推量せず、検証する。妙な壊れ方ではなく、閉じる方向に倒す。あるものが pickup かどうかモデルが不確かなら、既定では non-interactable とする。床が有効な衝突判定を生めないなら、出荷前にそのシーンを却下するか修復する。世界モデルが有用になるのは、意味論的な誤りが、プレイヤーに見えるグリッチではなく、デバッグ可能な失敗に変わるときだ。そこが堀である。
エンジンは実行器、モデルは事前分布である
明らかな反論は計算量だ。毎秒60フレームでステップする、それがゲームのやっていることである。大規模なニューラルモデルを、コンシューマー向けのハードウェア上で毎秒60フレームで走らせるのは現実的でない。
その批判は正しく、そして正しいアーキテクチャを指し示している。
エンジンはクリティカルパス上の実行器のままだ。
世界モデルはクリティカルパスの外で、あるいはより低い頻度で、あるいは決定の境界でのみ寄与する。
実際のところ、初期に勝つシステムはハイブリッドに見える。
エンジンは決定論的なステッピングと、制約と、衝突判定と、規則ロジックをフレームレートで走らせる。
モデルは事前分布と提案を供給する。構造化されたコンテンツを生成する。リスクある微小な決定について短い地平の帰結を予測する。安全なところでは、もっともらしい状態を埋める。非同期で走り、キャッシュされ、蒸留され、選択的に呼び出される。
この分業は妥協ではない。これがこれを製品にする唯一の道である。
それは中心的な主張をも補強する。エンジンは置き換えられていくのではない。エンジンは、世界モデルを使えるものにするランタイムになっていくのだ。
なぜゲームが重心になるのか
「コンパイラとランタイム」を受け入れるなら、三つの構造的な理由から、エンジンは自然な収束点になる。
意味論とデバッグはすでにそこに住んでいるエンジンはすでに、ステッピング、衝突判定、ナビゲーション、物理近似、状態機械、トリガー、可観測性を定義している。何かが失敗したとき、状態を見たい。どの制約が破られたのかを見たい。再現性が欲しい。
もっともらしいフレームをレンダーするだけの潜在表現は、デバッグするには貧しい場所だ。エンジンはデバッグに適した場所である。状態が明示的で、制約が実行可能だからだ。
出荷の圧力がエッジケースをデータに変えるゲームには作り付けのストレステストがある。プレイヤーは敵対的に探索する。わざと変なことをする。設計者が想定もしなかった境界条件を見つけ出す。
世界モデルにはその種の網羅が要る。手強い失敗が行動に条件づけられ、長い地平にわたるものだからだ。稼働中のゲームはトレースを捕え、失敗を採掘し、それを訓練カリキュラムへと変えられる。それが複利的な改善を生む。
標準化はプラットフォームの周りに積み上がるあらゆる基盤モデルの時代は標準へと収束する。データ形式、ツールのエコシステム、統合の接面へと。
エンジンはすでにインタラクティブな3Dについてその役割を果たしている。世界モデルが広く使える基盤になっていくのなら、その構造化された出力と意味論ライブラリは、すでに世界を出荷しているプラットフォームの周りに安定していく。
これがゲームが先導する理由だ。ゲームはすでに実行器と、デバッガと、流通と、フィードバックループを持っている。
世界モデルがゲームで解き放つもの
ランタイムの物語が重要なのは、それが製品のフロンティアを変えるからだ。 世界モデルは新たなプリミティブを持ち込む。プリミティブこそ、プラットフォームが動くところである。
プロンプトからプレイへの創作 コンセプトアートではない。プレイ可能なひと切れだ。デザイナーはそれを即座に歩き回り、テンポを感じ、レイアウトを調整し、数分で反復できる。創作のループは、長い構築のあとではなく、最初の一歩からインタラクティブになる。
ここはまた、陣営Cが現実を直視すべきところでもある。AAA級の3Dアセットは難しい。トポロジー、リギング、LOD、UV、性能予算。近い将来の価値は「AIが製品版のNight Cityを生成する」ことではない。
近い将来の価値は、ブロックアウトと、構造化されたレイアウトと、既存のアセットライブラリやツールと組み合わせられる、エンジンが取り込めるシーングラフだ。モデルには世界の構造を下書きさせる。パイプラインにはそれを磨かせる。
組み合わせ爆発を伴わない永続的な帰結爆発する分岐ツリーではない。維持できる、状態を持った因果だ。プレイヤーがしたことを覚えていて、長いセッションと更新をまたいで整合を保つ世界。
プレイヤーと同じ世界の力学に棲むNPC飛躍は、もっと上手く話すNPCではない。プレイヤーと同じ規則の内側で、動き、覚え、先を読み、反応するNPCだ。実際にはこれは、世界が想定の脚本から外れたときの、脆いロジックツリーの破綻が減る、という形で現れる。
シミュレーション・ネイティブなQAとバランス調整実行可能な世界は、エージェントに敵対的なプレイトレースを生成させられる。退化した戦略を探索し、境界条件を突き、エッジケースを早期に表へ出せる。人間の趣味は中心にとどまる。違いは、盲点が計測可能になることだ。
新たな形式最も深い変化は、生産の速さではない。それは、作り込まれたコンテンツと創発する世界のあいだに座る体験だ。ランタイムが規則を供給し、モデルが広がりを供給するがゆえに整合している。
ゲームがこれらのプリミティブを最初に大規模で出荷できる場所なのは、ゲームがすでにランタイムと、ツールチェーンと、日々それを試し抜くオーディエンスを持っているからだ。
ロボティクスは同じスタックを受け継ぐ
ロボティクスは同じステッピングのループであり、ただし制約が現実である。わずかな行動の差が衝突を引き起こしうる。部分観測が既定なので、状態追跡は決して省略できない。安全制約は設計上の選択ではなく、硬い限界だ。そして正直な失敗が重要なのは、幻覚された成功がただ間違って見えるだけでなく、ハードウェアを壊し、学習を腐らせるからだ。だから導入は段階を踏む。業界はまず接触の近くと失敗の近くでの短い地平の予測と行動ゲーティングから始め、それからフリート再生と行動の回帰へと進み、検証の網羅が固まって初めて計画の地平を広げる。
Stage 1、境界近くでの実行前予測 最初に広く使われるのは、脆い瞬間まわりでの短い地平の予測だ。接触、把持、挿入、衝突間際のナビゲーション。
ロボットが微小な行動を提案する。世界モデルが近い未来の帰結を予測し、確定する前に制約違反を旗立てる。システムは不変条件を満たす見込みが最も高い行動を選ぶ。
ここに実際の産業価値が早く現れる。工場の完璧なデジタルツインは要らない。決定が脆いところで信頼できる予測が要るのだ。
Stage 2、フリート再生と行動の回帰が当たり前になる ロボティクスがスケールするにつれ、デプロイはソフトウェアの問題になる。更新は振る舞いを劣化させてはならない。
フリートはすでにトレースを記録している。次の一歩は、代表的なトレースを回帰テストとして扱うことだ。更新のあとそれを再生し、ドリフトを計測し、ロールアウト前に回帰を止める。
世界モデルは、制御された反実仮想を可能にすることでこのループを強める。記録された状況を一つ与えられたら、微小な行動を揺さぶり、どの変種が制約を破るかを評価する。ニアミスが体系的な訓練信号になる。
現実世界のデータは依然として不可欠だ。シミュレーションも依然として不可欠だ。世界モデルは、予測的なテストとより速い反復で両者を結ぶ層になる。
Stage 3、検証の網羅が広がるにつれ計画が広がる 長い地平の計画は、検証が固まるにつれて到来する。家より先に倉庫。歩道より先に工場。ドリフトが計測可能で扱えるものになるにつれ、ロールアウトの地平は伸びていく。
ゲームとのつながりがここで実務になる。ゲームがこの規律を先に培うのは、すでに安定した行動インターフェイスと、明示的な制約と、再生と、計装と、敵対的な探索と、回帰テストの文化を持っているからだ。ロボティクスはこれらのパターンを受け継ぐ。安全にスケールするにはそれが要るからだ。
大手スタジオへの直言
大きなゲーム会社を率いていて、基盤モデル戦略を定めようとしているなら、それを「最前線の言語モデルを訓練する」ことに切り詰めてはならない。
言語はインターフェイスの層であり続ける。提携とライセンスとファインチューニングを通じて、広く手の届くものでもあり続ける。
あなたの持続する優位は遷移にある。
行動が帰結になるランタイムを、あなたは所有している。行動つきのテレメトリを所有している。再生のインフラを所有している。制約を定められる。検証器と回帰スイートを備えた第一級のコンポーネントとして、世界モデルをエンジンに統合できる。
最も梃子が効く手は、最大の生成器を追うことではない。モデルの出力を実行可能な世界へと変える、コンパイルのパイプラインを所有することだ。
言語は提携で得よ。ランタイムは所有せよ。
言語モデルは言語をプログラム可能にした。 世界モデルは環境をプログラム可能にする。
それをなすには、実行可能な意味論と、制約と、永続性と、更新やエッジケースをまたいで振る舞いを安定に保つ運用の機構が要る。
エンジンはすでにその機構を備えている。 だからこそ世界モデルはゲームで勝負がつき、それからフィジカルAIへと移っていく。Link to Slide