메시는 문이 아니다
세계 모델은 먼저 게임 엔진에서 판가름 나고, 그다음 물리 AI로 넘어간다
현실은 영어로 말하지 않는다. 상태(state)로 말한다.
큰 규모의 게임 팀이라면 누구나 알아보는 실패 양상이 있다. 플레이어는 세계를 바꾸는데 게임의 의미론적 세계는 따라 바뀌지 않는다.
좁은 골목에 차량을 끌어다 길을 막는다. 눈으로 보면 골목은 닫혔다. 물리적으로도 충돌 판정이 거기 있다. 그런데 보행자들은 여전히 그곳을 가로질러 다닌다. 내비메시(navmesh)가 오프라인에서 미리 구워졌고 “이 공간이 이제 막혔다”는 사실을 한 번도 배운 적이 없기 때문이다. 잡동사니 더미를 걷어차 새 엄폐물을 만들어도 엄폐 시스템은 여전히 옛날에 태그된 노드를 가리킨다. 모퉁이를 도는 순간 NPC들은 방금 삼십 초가 아예 없었던 것처럼 행동하는데, 장면에 대한 그들의 내부 표상이 이미 움직여 버린 세계 위에 얇게 덧씌운 한 겹에 지나지 않기 때문이다.
이것들은 추상적인 의미의 “NPC 지능” 문제가 아니다. 표상의 문제다. 에이전트는 플레이어가 놓인 세계를 두고 추론하고 있지 않다. 그 세계를 단순화한, 부분적으로 낡아 버린 모델을 두고 추론한다.
세계 모델(world model)은 그 간극을 메우려는 시도다. 더 영리한 행동 트리를 짜서가 아니라, 개입을 받고도 일관성을 유지하는 상태 보존형 표상을 세계에 대해 간직해서 메운다. 물체는 가려졌다 나타나도 정체성을 지킨다. 어포던스(affordance)는 장면이 바뀌면 따라 갱신된다. 제약은 여전히 제약으로 남는다. 시스템은 행동을 받아 한 걸음 나아가도 일관성을 잃지 않는다.
여기서 게임이 중요한 까닭은 게임이 이미 세계 모델에 필요한 그 고리를 돌리고 있기 때문이다. 관찰하고, 행동하고, 상태를 갱신하고, 되풀이한다. 엔진은 제약과 지속성과 계측과 리플레이를 갖춘 산업용 세계 런타임(runtime)이다. 세계 모델이 인상적인 미디어에 그치지 않고 믿을 만한 시스템이 되려면 결국 그 런타임으로 수렴하게 된다.
로봇공학이 그다음인 것도 같은 이유에서다. 물리 AI는 똑같은 고리이며, 다만 실수에 질량과 비용이 따를 뿐이다.
클립에서 세계로
쉬운 시험이 하나 있다.
스텝(step)을 밟을 수 있는가?
샘플링은 미래를 하나 요구하고 하나를 내준다. 스텝은 행동을 가하고, 다음 상태가 그 행동과 직전 상태와 세계의 규칙에 일관되도록 강제한다. 스텝을 밟을 수 있게 되는 순간 옳고 그름은 더는 미적인 문제가 아니다. 행동의 문제가 된다.
시스템의 언어로 말하면 세계는 상태 전이 과정이다. 끝내 온전히 관찰하지 못하는 바탕 상태 s_t가 있다. 행동 a_t를 가한다. 상태는 규칙과 무작위성을 따라 전개된다. 무언가를 관찰하고 다시 행동한다. 이 고리를 간결하게 적으면 다음과 같다.
진지한 세계 모델은 이 과정을 학습으로 근사한 것이다. 요점은 픽셀을 예측한다는 데 있지 않다. 일관된 내부 상태를 앞으로 실어 나르기에, 에이전트가 무슨 일이 있었는지 세계가 “잊지” 않은 채 계획하고 행동할 수 있다는 데 있다.
지금의 많은 시스템에서 망가지는 것이 바로 이것이다. 환경은 갱신되는데 에이전트가 쓰는 표상은 갱신되지 않는다. 내비메시는 고정된 채 머문다. 엄폐 그래프도 고정된 채 머문다. 어포던스는 부서지기 쉬운 태그다. 에이전트가 추론의 바탕으로 삼는 세계는 플레이어가 보는 세계로부터 멀어진다.
세계 모델이 겨누는 것은 빠진 그 능력이다. 개입을 받으면 갱신되고, 긴 지평에서도 안정적이며, 스텝을 받쳐 주는 표상.
여기서 “플레이 가능”이라는 말 뒤의 실용적인 물음이 따라 나온다.
플레이 가능이란 실제로 무엇을 요구하는가?
메시는 문이 아니다
“플레이 가능한(playable)“은 흔히 하나의 이진 속성인 양 쓰인다. 그렇지 않다. 거기에는 층위가 있고, 그 층위가 “3D 환경을 생성한다”와 “세계를 생성한다”가 같지 않은 이유를 일러 준다.
걷기 가능(walkable)은 공간이 일관되고 충돌이 제대로 작동하며 내비게이션이 유효하다는 뜻이다.
상호작용 가능(interactable)은 물체가 정체성과 어포던스와 지속 상태를 지닌다는 뜻이다.
게임 가능(gameable)은 규칙이 고리를 만든다는 뜻이다. 목표, 실패, 진행.
저작 가능(authorable)은 창작자가 편집할 수 있고 그 편집이 지속된다는 뜻이다.
“3D”에서 “플레이 가능”으로의 도약은 대체로 상호작용 가능 층에 놓여 있다.
문처럼 보이는 메시는 문이 아니다. 문이란 형상에 더해 충돌, 경첩 제약, 상호작용 어포던스, 상태 변수(열림/닫힘, 잠김/풀림), 그리고 그 상태가 의미를 갖게 하는 규칙 논리다. 바닥은 삼각형이 아니다. 세계가 바뀌면 따라 갱신되어야 하는 내비게이션 의미론을 지닌 통행 가능한 표면이다. 엄폐는 시각적 실루엣이 아니다. 형상과 시선 제약에 묶여 질의할 수 있는 어포던스다.
세계 모델이 제품이 되는 것은 이런 층위에서 실행 가능한 세계를 내놓을 수 있을 때이지 더 예쁜 영상을 내놓을 수 있을 때가 아니다.
그리고 진짜 병목이 드러나는 곳이 바로 거기다. 생성된 세계 상태는 실행 가능한 세계 행동이 아니다.
세계 모델로 가는 세 갈래
지금의 작업 대부분은 세 진영으로 묶을 수 있다. 실제로는 경계가 흐려지지만 의도만큼은 뚜렷이 다르다.
**진영 A: 렌더 우선 미래 **(OpenAI의 Sora)
Sora류 시스템이다. 본래 산출물은 영상이고, “세계”는 그럴듯한 프레임에 맞춰 최적화된 잠재 공간 안에 암묵적으로 들어 있다. 이런 모델은 외양과 짧은 지평의 움직임에 대한 값진 사전 분포(prior)다. 또한 쓸 만한 콘텐츠 엔진이기도 하다.
기본 인터페이스는 샘플링이다. 스텝과 지속성은 보통 그 위에 구조를 얹어야 얻는다.
**진영 B: 상호작용형 영상 세계 **(DeepMind의 Genie)
Genie류 시스템이다. 산출물은 여전히 2D 프레임이지만, 시스템은 내부 상태를 유지하면서 행동 하나하나에 스텝을 밟도록 설계되어 있다. 진영 A와의 차이는 해상도가 아니다. 행동이 일급(first-class)이고 개입을 받고도 유지되는 일관성이 핵심 요건이라는 점이다.
진영 A는 미래를 샘플링한다. 진영 B는 행동을 받아 시뮬레이션한다.
**진영 C: 명시적 3D 세계 빌더 **(World Labs의 Marble)
Marble류 접근이다. 세계 상태는 새로운 시점과 편집과 표준 파이프라인으로의 내보내기를 받쳐 주는 명시적인 3D 구조여야 한다는 데 거는 쪽이다. 시점 일관성과 편집 가능성을, 영상 잠재 공간에서 나오기를 바라는 속성이 아니라 표상 안에 처음부터 박아 넣는다.
진영 C는 엔진이 이미 명시적 3D 상태를 다루기에 엔진에게 자연스럽게 읽힌다.
진영들은 결국 합쳐질 것이다. 그럴듯한 종착지는 혼합형이다. 영상 사전 분포와 상호작용 롤아웃을 쓰고, 도움이 되는 자리에는 명시적 구조를 쓴다.
실용적 병목은 셋 모두에서 똑같다.
생성된 세계 상태는 실행 가능한 세계 행동이 아니다.
빠진 층은 컴파일러다
세계 모델은 세계 상태를 생성한다. 엔진은 세계 동역학을 실행한다. 어려운 대목은 그 번역이다.
이를 컴파일 문제로 다뤄 보자.
진영 C가 이를 가장 잘 보여 주는데 구조를 출력하기 때문이다. 올바른 출력 목표는 “메시”가 아니다. 엔진이 받아들일 수 있는 구조화된 세계 기술(description)이다.
쓸 만한 중간 표현은 렌더가 아니라 장면 기술처럼 생겼다.
{
"entities": [
{
"id": "door_17",
"type": "door",
"transform": { "pos": [1.2, 0.0, -3.4], "rot": [0, 90, 0] },
"mesh": "door_mesh_A",
"materials": ["painted_metal"],
"affordances": ["open", "close"],
"state": { "open": false, "locked": true },
"physics": { "mass": 18.0, "hinge_axis": [0, 1, 0] }
}
]
}
요점은 JSON이 아니다. 요점은 규율이다. 모델이 엔진에 먹이려면 출력이 단순한 형상이 아니라 구조화된 세계 기술처럼 생겨야 한다. 엔티티에는 안정적인 ID가 있어야 한다. 타입은 명시적이어야 한다. 어포던스와 상태 변수는 표현할 수 있어야 한다. 물리 속성은 뒷전이 아니라 그것이 중요한 자리에 있어야 한다.
거기서부터 엔진은 컴포넌트를 붙여 구조를 실행 가능한 의미론으로 컴파일할 수 있다. “문”은 메시가 아니다. 충돌, 경첩 제약, 상호작용 컴포넌트, 상태 복제가 된다. “줍기 아이템”은 잡기 어포던스와 인벤토리 의미론을 지닌 강체가 된다. “지면”은 충돌 형상과 내비메시 굽기가 된다. “위험 요소”는 볼륨에 피해 규칙을 더한 것이 된다. 플레이 가능성이 판가름 나는 곳이 여기다. 걷기 가능한 세계에는 유효한 충돌과 내비게이션이 필요하다. 상호작용 가능한 세계에는 정체성과 어포던스와 지속 상태가 필요하다. 게임 가능한 세계에는 상태를 결과로 바꾸는 규칙 시스템이 필요하다.
가장 까다로운 실용적 반론이 나오는 곳도 여기다. 의미론적 오류는 파국적이다. “걷기 가능한 바닥”에서 1퍼센트의 오류율이면 게임이 플레이 불가능해진다. 그것은 이 접근을 버릴 이유가 아니라 컴파일러 층이 중요한 이유다. 진지한 파이프라인은 불확실성을 보수적으로 다룬다. 자유 형식의 태그가 아니라 타입이 정해진 스키마를 쓴다. 추측하지 말고 검증한다. 이상하게 실패하지 말고 닫힌 쪽으로 실패한다. 어떤 것이 줍기 아이템인지 모델이 확신하지 못하면 기본값을 비상호작용으로 둔다. 바닥이 유효한 충돌을 만들어 내지 못하면 출시 전에 장면을 거부하거나 고친다. 세계 모델이 쓸모를 갖는 것은 의미론적 오류가 플레이어 눈에 보이는 결함이 아니라 디버깅 가능한 실패로 바뀔 때다. 그것이 해자다.
엔진은 실행기, 모델은 사전 분포
뻔한 반론은 연산이다. 초당 60프레임으로 스텝을 밟는 것이 게임이 하는 일이다. 소비자 하드웨어에서 큰 신경망을 초당 60프레임으로 돌리는 것은 현실적이지 않다.
그 비판은 옳고, 올바른 아키텍처를 가리킨다.
엔진은 임계 경로 위의 실행기로 남는다.
세계 모델은 임계 경로 밖에서, 또는 더 낮은 빈도로, 또는 결정 경계에서만 기여한다.
실제로 초기에 이기는 시스템은 혼합형으로 보인다.
엔진은 결정론적 스텝과 제약과 충돌과 규칙 논리를 프레임 속도로 돌린다.
모델은 사전 분포와 제안을 댄다. 구조화된 콘텐츠를 생성한다. 위험한 미시 결정에 대해 짧은 지평의 결과를 예측한다. 안전한 자리에서는 그럴듯한 상태를 채워 넣는다. 비동기로 돌고 캐시되고 증류되고 선택적으로 호출된다.
이 분업은 타협이 아니다. 이것이 이 일이 제품이 되는 유일한 길이다.
이는 핵심 명제도 다시 굳힌다. 엔진은 대체되고 있지 않다. 엔진은 세계 모델을 쓸 만하게 만드는 런타임이 되어 가고 있다.
게임이 무게 중심이 되는 까닭
“컴파일러 더하기 런타임”을 받아들인다면 엔진은 세 가지 구조적 이유로 자연스러운 수렴점이 된다.
의미론과 디버깅이 이미 거기 산다엔진은 이미 스텝, 충돌, 내비게이션, 물리 근사, 상태 기계, 트리거, 관측 가능성을 정의한다. 무언가 실패하면 상태를 보고 싶어진다. 어느 제약이 어겨졌는지 보고 싶어진다. 재현성을 원한다.
그럴듯한 프레임만 렌더하는 잠재 공간은 디버깅하기에 나쁜 자리다. 엔진은 디버깅하기에 좋은 자리인데 상태가 명시적이고 제약이 실행 가능하기 때문이다.
출시 압력이 엣지 케이스를 데이터로 바꾼다게임에는 내장된 스트레스 테스트가 있다. 플레이어는 적대적으로 탐색한다. 일부러 이상한 짓을 한다. 설계자가 한 번도 염두에 두지 않은 경계 조건을 찾아낸다.
세계 모델에는 그런 종류의 커버리지가 필요한데 진짜 어려운 실패는 행동에 조건 지어져 있고 긴 지평에 걸쳐 있기 때문이다. 살아 있는 게임은 트레이스를 포착하고 실패를 캐내 훈련 커리큘럼으로 바꿀 수 있다. 그렇게 복리로 쌓이는 개선이 생긴다.
표준화는 플랫폼을 중심으로 쌓인다모든 기반 모델 시대는 표준으로 수렴해 간다. 데이터 형식, 도구 생태계, 통합 표면.
엔진은 이미 상호작용형 3D에서 그 역할을 한다. 세계 모델이 널리 쓰일 기반이 되려면 그 구조화된 출력과 의미론 라이브러리는 이미 세계를 출시하고 있는 플랫폼을 중심으로 안정될 것이다.
이것이 게임이 앞장서는 까닭이다. 게임에는 이미 실행기와 디버거와 유통과 피드백 고리가 있다.
세계 모델이 게임에서 여는 것
런타임 이야기가 중요한 까닭은 그것이 제품의 최전선을 바꾸기 때문이다.
세계 모델은 새 원시 요소(primitive)를 들여온다. 플랫폼이 옮겨 가는 자리는 원시 요소가 있는 곳이다.
프롬프트에서 플레이로의 창작
콘셉트 아트가 아니다. 플레이 가능한 한 토막이다. 디자이너는 그것을 즉시 돌아다니며 호흡을 느끼고 배치를 조정하고 몇 분 만에 반복할 수 있다. 창작의 고리는 긴 빌드를 거친 뒤가 아니라 첫걸음부터 상호작용적이 된다.
진영 C가 현실을 점검받아야 하는 곳도 여기다. AAA급 3D 에셋은 어렵다. 토폴로지, 리깅, LOD, UV, 성능 예산. 가까운 시점의 값어치는 “AI가 출시 준비된 나이트 시티를 생성한다”가 아니다.
가까운 시점의 값어치는 블록아웃, 구조화된 배치, 그리고 기존 에셋 라이브러리·도구와 짝지을 수 있는 엔진 수용형 장면 그래프다. 모델에게는 세계 구조의 초안을 맡기자. 파이프라인에게는 그것을 다듬는 일을 맡기자.
조합 폭발 없는 지속적 결과가지가 폭발하는 분기 트리가 아니다. 유지할 수 있는 상태 보존형 인과다. 플레이어가 한 일을 기억하고 긴 세션과 업데이트에 걸쳐 일관성을 지키는 세계.
플레이어와 같은 세계 동역학에 깃든 NPC도약은 NPC가 말을 더 잘하는 것이 아니다. NPC가 플레이어와 똑같은 규칙 안에서 움직이고 기억하고 예측하고 반응하는 것이다. 실제로 이것은 세계가 예상된 각본에서 벗어났을 때 부서지기 쉬운 논리 트리의 실패 양상이 줄어드는 모습으로 나타난다.
시뮬레이션이 본령인 QA와 밸런싱실행 가능한 세계는 에이전트가 적대적 플레이 트레이스를 생성하게 해 준다. 에이전트는 비정상 전략을 탐색하고 경계 조건을 찔러 보고 엣지 케이스를 일찍 들춰낼 수 있다. 인간의 취향은 여전히 중심에 있다. 달라지는 것은 사각지대가 측정 가능해진다는 점이다.
새 형식가장 깊은 변화는 생산 속도가 아니다. 저작된 콘텐츠와 창발적 세계 사이에 놓인 경험이며, 런타임이 규칙을 대고 모델이 폭을 대기에 일관된다.
이런 원시 요소가 처음으로 규모 있게 출시될 수 있는 곳이 게임인 까닭은 게임에는 이미 런타임과 툴체인이 있고 그것들을 매일같이 압박하며 시험할 관객이 있기 때문이다.
로봇공학이 같은 스택을 물려받는다
로봇공학은 똑같은 스텝 고리이며, 다만 제약이 실재한다. 작은 행동 차이가 충돌을 일으킬 수 있다. 부분 관측이 기본이라 상태 추적은 결코 선택지가 아니다. 안전 제약은 설계상의 선택이 아니라 단단한 한계다. 그리고 정직한 실패가 중요한데, 환각된 성공은 그저 잘못 보이는 데 그치지 않고 하드웨어를 부수고 학습을 오염시키기 때문이다. 도입이 단계적으로 진행될 까닭이 그래서다. 업계는 짧은 지평의 예측과 접촉 근처·실패 근처에서의 행동 게이팅으로 시작해, 다음으로 플릿 리플레이와 행동 회귀로 넘어가며, 검증 커버리지가 단단해진 뒤에야 비로소 계획 지평을 넓힐 것이다.
1단계: 경계 근처의 실행 전 예측
처음 널리 쓰이는 자리는 약한 순간 둘레의 짧은 지평 예측이다. 접촉, 잡기, 삽입, 충돌 직전 내비게이션.
로봇이 미시 행동을 제안한다. 세계 모델이 가까운 시점의 결과를 예측하고 행동을 확정하기 전에 제약 위반을 표시한다. 시스템은 불변식을 만족시킬 가능성이 가장 높은 행동을 고른다.
진짜 산업적 값어치가 일찍 나타나는 곳이 여기다. 공장의 완벽한 디지털 트윈이 필요하지는 않다. 결정이 부서지기 쉬운 자리에서 믿을 만한 예측이 필요할 뿐이다.
2단계: 플릿 리플레이와 행동 회귀가 일상이 된다
로봇공학이 규모를 키우면서 배포는 소프트웨어 문제가 된다. 업데이트가 행동을 떨어뜨려서는 안 된다.
플릿은 이미 트레이스를 기록한다. 다음 걸음은 대표 트레이스를 회귀 테스트로 다루는 것이다. 업데이트 뒤에 그것들을 리플레이하고 드리프트를 측정하며 롤아웃 전에 회귀를 막는다.
세계 모델은 통제된 반사실을 가능하게 해 이 고리를 강화한다. 기록된 상황을 두고 미시 행동을 흔들어 어느 변형이 제약을 어기는지 평가한다. 아슬아슬한 실패가 체계적인 훈련 신호가 된다.
실제 세계 데이터는 여전히 필수다. 시뮬레이션도 여전히 필수다. 세계 모델은 그 둘을 예측 테스트와 더 빠른 반복으로 묶는 층이 된다.
3단계: 검증 커버리지가 넓어지면서 계획도 넓어진다
긴 지평의 계획은 검증이 단단해지면서 도착한다. 가정집보다 창고가 먼저다. 인도보다 공장이 먼저다. 롤아웃 지평은 드리프트가 측정 가능하고 다룰 만해지면서 자란다.
게임과의 연결이 실무적이 되는 곳이 여기다. 게임은 그 규율을 더 일찍 길러 내는데, 이미 안정된 행동 인터페이스, 명시적 제약, 리플레이, 계측, 적대적 탐색, 그리고 회귀 테스트의 문화를 갖추고 있기 때문이다. 로봇공학은 안전하게 규모를 키우려면 그것들이 필요하기에 이 패턴들을 물려받는다.
큰 스튜디오에 부치는 직언
큰 게임 회사를 운영하며 기반 모델 전략을 짜고 있다면, 그것을 “최전선 언어 모델을 훈련한다”로 좁히지 말라.
언어는 인터페이스 층으로 남을 것이다. 또한 파트너십과 라이선싱과 파인튜닝을 통해 널리 손에 닿을 것이다.
당신의 지속 가능한 우위는 전이(transition)다.
당신은 행동이 결과가 되는 런타임을 소유한다. 행동이 딸린 텔레메트리를 소유한다. 리플레이 인프라를 소유한다. 제약을 정의할 수 있다. 검증기와 회귀 스위트를 갖춘 일급 컴포넌트로서 세계 모델을 엔진에 통합할 수 있다.
가장 지렛대가 큰 수는 가장 큰 생성기를 좇는 것이 아니다. 모델 출력을 실행 가능한 세계로 바꾸는 컴파일 파이프라인을 소유하는 것이다.
언어는 파트너십으로 가져가라. 런타임은 소유하라.
언어 모델은 언어를 프로그래밍 가능하게 만들었다.
세계 모델은 환경을 프로그래밍 가능하게 만든다.
그러려면 실행 가능한 의미론과 제약과 지속성이 필요하고, 업데이트와 엣지 케이스에 걸쳐 행동을 안정되게 지키는 운영 기계가 필요하다.
엔진은 이미 그 기계를 댄다.
세계 모델이 게임에서 판가름 나고, 그다음 물리 AI로 넘어가는 까닭이 이것이다.슬라이드 링크