발견의 구조

알파고가 사고에 관해 드러낸 것

영어 원문에서 옮김

보르헤스는 가능한 모든 책을 담은 도서관을 상상했다. 우리는 그것을 지었다. 이제 거대 언어 모델은 사실상 어떤 단어의 배열이든 불러내고 끌어올 수 있다. 완벽한 사서가 도착한 것이다.

그런데도 발견은 자동화되지 않았다. 글을 만들어 내는 비용은 0에 다가간다. 진짜 통찰의 비용은 그러지 않았다. 모든 답이 이미 “그 안에” 있다면, 왜 그냥 찾아보면 안 되는가?

발견은 검색이 아니라 항해이기 때문이다. 나는 무한히 가지를 뻗는 나무의 한 마디에 서 있다. 어느 쪽을 고르든 또 하나의 무한이 열린다. 필요한 통찰로 가는 길은 찾아볼 수가 없다. 그 통찰의 주소 자체가 건너뛸 수 없는 어떤 계산의 출력이기 때문이다. 일단 찾은 답을 검증하는 일은 쉽다. 찾는 일이 어렵다.

2012년에 나는 바로 이런 구조를 항해하는 모델 하나를 발표했다. 깊이와 너비에 한계가 없는 무한한 나무, 그러나 쓸 만한 신호가 어느 한 경로에 놓여 있지 않고 위계 전체에 흩어져 있는 구조였다.¹ 그 모델의 핵심 통찰은, 마디마다 가장 유망한 가지로 주의를 모아 주는 신호의 안내를 받는 재귀 탐색이 무한을 다룰 만한 것으로 바꿀 수 있다는 데 있었다. 나는 텍스트 말뭉치 속 주제 위계를 모델링하고 있었다. 같은 문제의 한 판본을 붙들고 있다는 것을 나는 알지 못했다.

그로부터 사 년 뒤, 한 시스템이 그 구조를 바둑판 위에서 보여 주었다.

1. 37수가 알았던 것

십 년 전 오늘, 세계 챔피언 이세돌과의 다섯 판 대국 중 둘째 판에서 알파고가 다섯째 줄에 돌을 놓았다. 해설자들이 입을 다물었다. 알파고를 몇 달간 연구한 프로 기사 판 후이는 말을 잇지 못했다. 알파고 자신의 정책망은 어떤 사람이라도 그 수를 둘 확률을 만 분의 일로 추정했다.

그것은 아름다웠다. 그것은 이기는 수였다. 그리고 그것은 진정으로 새로웠다.

이것은 검색이 아니었다. 16만 판의 인간 대국에서 나온 3천만 개 국면으로 훈련된 정책망은 37수를 둘 법하지 않다고 매겼다. 알파고가 인간의 기보를 압축한 지식에만 기댔다면, 그 수는 결코 고려조차 되지 않았을 것이다. 그것은 무차별 탐색도 아니었다. 바둑에는 대략 10^170가지 국면이 있다. 탐색만으로는 답에 닿을 수 없다.

그것은 세 가지 인지 작용이 함께 빚어낸 산물이었다.

예측. 정책망. 16만 판이 넘는 인간 대국이 다음 수의 확률 분포로 압축되어 있다. 이 국면이라면 강한 기사는 무엇을 둘까? 합법적인 수 약 250개를 둘 법한 5개에서 10개로 좁힌다. 학습된 패턴 인식이다. 무엇이 좋은지가 아니라 무엇이 그럴듯한지를 말하며, 그 차이가 알고 보면 엄청나게 중요하다.

취향. 가치망. 바둑판 국면 하나를 보고 숫자 하나를 내놓는다. 이건 얼마나 좋은가? 어떤 수를 두라고 말하지 않는다. 지금 선 자리를 어떻게 느껴야 하는지를 말한다. 계산을 끝맺지 않은 채 중간 상태에 방향이 담긴 값을 매기는 것이다.

탐색. 몬테카를로 트리 탐색. 예측(어느 가지를 살필지)과 취향(어느 국면을 값있게 볼지)의 안내를 받아 대안을 신중히 차례로 더듬어 가는 일. 한 수마다 안내받는 모의 실험 수천 번. 사고에서 일처럼 느껴지는 부분이다.

37수는 이 셋이 만나는 자리에서 나왔다. 예측은 그것을 둘 법하지 않다고 매겼다. 탐색은 그래도 그것을 살폈다. 취향은 그 질을 알아보았다. 발견에는 셋 모두가 필요했다.

그리고 같은 대국의 넷째 판에서 이세돌은 78수를 두었다. 똑같이 일어나기 어려운 수였다. 훗날 ‘신의 한 수’로 불린다. 한 사람이 기계의 창의성에 떠밀려 제 훈련 분포를 넘어선 것이다. 그는 공식 대국에서 알파고를 이긴 유일한 사람으로 남아 있다. 그는 삼 년 뒤 프로 바둑에서 은퇴하며 AI는 “이길 수 없다”고 말했다. 이 구조는 기계에도 인간에도 매여 있지 않다. 발견이 광대한 공간을 안내받아 탐색하는 데 달린 곳이라면 어디서나 나타난다.

그 대국으로부터 몇 해 뒤, 알파고의 후계자 뮤제로가 근본적인 무언가를 바꾸었다. 알파고는 우리가 건넨 세계 모델, 곧 바둑의 명시적 규칙을 헤집어 탐색했다. 뮤제로는 그 모델을 스스로 익혔다.

상상. 게임의 규칙을 한 번도 건네받지 않은 채, 압축된 표현 속에서 미래 상태를 모의하는 학습된 동역학 모델. 시스템은 사람이 읽을 수 없는 형태의 잠재 공간 속에서 앞을 향해 꿈꾼다. 결과가 언어가 되기 전에 미리 펼쳐지는, 말 이전의 작업 공간이다. 이로써 이 구조는 내생적이 된다. 시스템은 더 이상 우리가 건넨 세계 모델만으로 계획하지 않는다. 계획에 필요한 모델을 스스로 익힌다. 바깥의 세계 모델 위에서 탐색하는 일과 스스로 익힌 잠재 모델로 계획하는 일의 차이가 그것이다.

2. 증명 시스템과 발견 시스템

지금의 거대 언어 모델은 내가 증명 시스템이라 부를 것을 제공한다. 예측(기반 모델이 패턴으로 맞춰 가는 다음 토큰 생성)에 탐색(o3와 딥시크 R1에 내장된 사고 사슬 추론)을 더한 것이다. 이 두 작용은 이미 알려진 경로를 끝맺는 데 강하다. 증명, 설명, 구현, 분석. 증명 시스템은 그 숙고를 토큰 공간을 통해 바깥으로 드러낸다. 모든 단계가 직렬이고 언어적이며 들여다볼 수 있다. 그 기록을 읽을 수 있다.

딥시크 R1은 순수한 결과 피드백만으로 사고 사슬 추론을 길러 낸다. 과정 보상 모델도, 트리 탐색도 없이, 제 실수를 잡아내는 법을 저절로 익힌다. 인상적이다. 그러나 그 추론은 온전히 자연어 속에서 펼쳐진다. 모델에는 서로 맞지 않는 조각들을 하나로 맞물릴 때까지 매단 채로 붙들 견고한 장치가 없다.

빠져 있는 것은 발견 시스템이다. 취향(언어를 거치지 않고 쳐 내고 안내하는 평가 판단)에 상상(언어의 병목을 결코 지나지 않는 압축된 표현 속에서 결과를 모의하는 일)을 더한 것이다. 이전 글에서 나는 발견이 제3의 인지 양식에서 돌아간다고 논했다. 시스템 2처럼 느리지만(시간과 노력이 들지만) 시스템 1처럼 말이 없는(언어 사슬이 아니라 잠재 표현 위에서 돌아가는) 양식이다. 사엔진 모델(Four-Engine Model)은 그 논의를 또렷하게 만든다. 증명 시스템은 예측과 탐색이 언어를 통해 바깥으로 드러난 것이다. 발견 시스템은 잠재 평가와 잠재 모의에 한결 더 무겁게 기대며, 그중 일부만 말로 투영된다.

푸앵카레는 1908년에 이 구분을 놀라운 정밀함으로 그려 냈다. 그가 말한 수학적 창조의 네 단계는 준비, 부화, 조명, 검증이다. 여기서 가장 중요한 것은 부화 단계다. 푸앵카레는 발상들이 “무리 지어” 떠올라 “쌍쌍이 맞물릴” 때까지 부딪치며, 그 모든 일이 의식 아래에서 일어난다고 적었다. 그것이 상상이 돌아가는 모습이다. 뒤이은 조명, 곧 마음이 “조화로운, 따라서 단번에 쓸모 있고 또 아름다운 것들만” 떠올릴 때, 그것이 취향이 발화하는 모습이다. 나머지 두 단계, 준비와 검증은 예측과 탐색에 곧장 맞아떨어진다.

MIT의 시모어 페퍼트는 결정적인 구조 원리를 짚어 냈다. “의식과 무의식의 마음에 더해진 제3의 행위자”, 프로이트의 검열관과 어딘가 닮은 그 행위자는 “변해 가는 무의식적 패턴의 만화경을 훑어, 제 미적 기준을 채우는 것만 지나가게 하는 일”을 맡는다. 그 제3의 행위자가 취향이다. 가치망. 생성 과정에 걸린 거름망. 그것은 정확히 알파고의 구조이고(예측이 후보를 만들면 취향이 그것을 거른다), 또 앞으로 보겠지만, 진정한 발견에 이른 모든 시스템의 구조이기도 하다.

그 함의는 가혹하다. AI가 발견할 수 있는 것의 최전선은 평가 신호가 바닥나는 바로 그곳이다.

이 네 엔진의 상류에는 모델이 온전히 담아내지 못하는 작용이 하나 있다. 어떤 평가가 가능해지기에 앞서 무엇이 있어야 하는지를 만들어 내는 일이다. 문제를 찾고, 물음을 던지고, 명세가 있기 전에 명세를 쓰는 일. 네 엔진은 탐색 대상이 일단 존재한 다음에 벌어지는 일을 다스린다. 그러나 취향은 그 생성 행위의 하류에 있는 모든 것을 옭아매는 제약이며, 우리가 무엇을 향해 설계할지 아는 그 제약이다.

3. 취향 병목

취향이 없으면 바벨의 도서관에서 길을 잃는다. 모든 것에 닿을 수 있으나 아무것도 찾지 못한다. 거대 언어 모델로 무언가를 짓는 사람 대부분이 아직 온전히 받아들이지 못한 대목이 이것이다. 가치망이야말로 알파고의 탐색 모의 수천 번을 10^170 상태 공간을 항해하기에 충분하게 만든다. 그것을 빼면 같은 모의가 헤맨다.

2023년의 사고 트리(Tree-of-Thought) 결과는 이것을 언어 안에서 보여 주었다. 사고 사슬 프롬프트를 쓴 GPT-4는 24 만들기 과제의 4%를 풀었다. 같은 모델이 자기 평가의 안내를 받는 트리 구조 탐색을 더하자 74%를 풀었다. 같은 모델. 같은 지식. 차이는 원시적인 취향의 안내를 받는 탐색이었다. 거친 취향조차 다룰 수 없던 탐색을 다룰 만한 탐색으로 바꾼다.

과정 보상 모델은 언어를 위한 취향을 지으려는 앞선 시도 중 하나다. 검증이 값쌀 때 잘 작동한다. 수학에는 확인 가능한 답이 있고, 코드에는 실행 가능한 테스트가 있다. 검증에 온전한 계산이 필요할 때, 곧 “좋음”이 맥락과 경험과 모의할 수 없는 결과에 달려 있을 때 무너진다.

기술적 장애물은 실재한다. 2025년의 한 논문은 선호 기반 훈련이 사고를 효과적으로 만드는 탐색적 추론, 곧 되짚기, 자기 교정, 어지럽지만 생산적인 탐색을 체계적으로 벌준다고 논했다. 선호 데이터는 단지 잡음이 섞인 것이 아니다. 체계적으로 틀릴 수 있다. 그리고 보상 해킹이 문제를 키운다. RLHF는 모델이 틀렸을 때조차 자기가 옳다고 사람을 설득하는 데 더 능하게 만든다.

그러나 최전선은 움직이고 있다. 보상으로서의 루브릭(Rubrics as Rewards)이라 불리는 최근의 한 틀은 취향을 구조화된, 확인 가능한 기준으로 쪼갠다. “이것은 좋은가?”라고 묻는 대신, 구체적인 물음들을 한 묶음 던진다. 의학 추론 벤치마크에서 이는 31%의 향상을 거둔다. 그 통찰은 이렇다. 취향을 통째로 담아낼 수는 없지만 검증 가능한 구성 요소로 쪼갤 수는 있다. 판단 전체는 그렇지 못해도 기준 하나하나는 확인 가능하다.

2023년 말, 펀서치(FunSearch)라 불리는 시스템이 수학의 최전선에서 그 구조 전체를 보여 주었다. 자동 평가자와 짝지은 언어 모델이 캡 집합 문제의 새로운 구성을 발견했는데, 이십 년 만의 가장 큰 진전이었다. 언어 모델이 후보를 만들었다. 평가자가 각각을 풍부한 수치 신호로, 곧 맞고 틀림만이 아니라 얼마나 좋은지로 채점했다. 진화 탐색이 가장 나은 발상들을 재조합했다. 그 발견은 《네이처》에 실렸다.

그리고 연구자들은 그 경계를 분명히 했다. 수학적 증명을 만들어 내는 문제는 이 범위 바깥에 놓이는데, 충분히 풍부한 채점 신호를 어떻게 줄지가 분명치 않기 때문이다. 취향을 지을 수 있는 곳에서 발견이 일어난다. 지을 수 없는 곳에서는 인상적인 생성을 얻되, 좋은 것과 그럴듯한 것을 가려낼 길이 없다.

4. 다음에 지어지는 것

사엔진 모델은 AI 자동화가 왜 지식 노동의 층을 아래에서 위로 밀고 올라가는지를 설명한다. 내 컴파일 명제(Compilation Thesis)가 그려 보였으나 온전히 설명하지는 못한 것이다.

그 까닭은 구조에 있다. 추상의 층을 따라 코드에서 구조로, 다시 전략으로 올라갈수록 명세 간극(Spec Gap, 원하는 바를 또렷이 말하기가 어려워진다)과 투영 간극(Projection Gap, 질을 평가할 대역폭이 좁아진다)이 모두 벌어진다. 전략을 위한 취향이 코드를 위한 취향보다 짓기 어려운 까닭이 이것이다. 단지 전략 영역이 더 어지럽기 때문만은 아니다. 평가 신호 자체가 명시하기 어려워지고, 전달하기 어려워지며, 검증하기 어려워지기 때문이다. 추상이 올라갈수록 기준 진실이 물러나기에 엔진을 짓기가 어려워진다.

코드 층에서는 네 엔진 모두가 다른 어느 영역에서보다 작동에 가깝다. 생성이 강하다. 평가가 테스트와 타입 시스템과 린터를 통해 존재한다. 구현을 헤집는 탐색이 코딩 에이전트 안에서 활발하다. 코드가 가장 먼저 컴파일되어 사라지는 까닭이 이것이다.

구조 층에서는 취향이 약하고 상상은 거의 없다. 내 일이 바뀐 것을 깨달은 곳이 바로 여기다. 무엇으로 바뀌었는지 이해하기까지는 한참이 걸렸지만. 한 AI 에이전트가 어떤 코드 리뷰든 통과했을 서비스 구조를 내놓았다. 그리고 나는 왜인지 정확히 말하지 못한 채, 그것이 석 달 뒤 우리가 겪을 부하 패턴을 견뎌 내지 못하리란 것을 알았다. 시스템은 내가 명시할 수 있는 사고를 하고 있었다. 나는 명시할 수 없는 사고를 하고 있었다. 그때 나는 이를 가리킬 말이 없었다. 이제는 있다. 그 사고가 취향이었다.

전략 층에서는 취향과 상상이 여전히 약하고 무르며 기관마다 크게 다르다. 노련한 판단이 값있게 남는 까닭은 경험 많은 이들이 더 많은 사실을 알거나 더 꼼꼼히 추론하기 때문이 아니라, 결정이 펼쳐지는 모습을 여러 해 지켜보며 다져 온 평가의 직감과 심성 모형을 지녔기 때문이다.

더 깊은 문제가 있다. 취향은 전통적으로 일을 직접 하고 전문가의 평가를 받는 과정에서 길러져 왔다. 신참 변호사가 서면을 쓰면 파트너가 빨갛게 고쳐 주고, 여러 해에 걸쳐 신참은 그 평가 기준을 제 안에 들인다. 일 자체가 자동화되면 신참은 평가할 경험이 없는 산출물을 검토하는 사람이 된다. 취향을 다지는 그 피드백 고리가 끊긴다. 하필 취향이 가장 값있는 인지 작용이 되는 바로 그 순간에.

네 번째 엔진인 상상은 여전히 연구의 최전선이다. 뮤제로의 동역학망은 압축된 표현 속에서 미래 상태를 예측하는데, 멀리 내다볼수록 덜 정확해지지만 걸음마다 탐색으로 바로잡힌다. 완벽한 세계 모델은 필요 없다. 짧은 시야의 계획에 방향만 쓸 만한 모델이면 된다. 이 원리는 게임에서, 단백질 접힘(알파폴드, 2024년 노벨상)에서, 그리고 초기 형태로 물리 동역학(V-JEPA 2, 2025)에서 입증되었다. 그러나 물리 예측과 전략 예측 사이의 간극은 어마어마하다. 지식 노동을 위한 상상은 십 년 단위의 최전선이다. 그리고 상상이 약할수록 취향에 더 큰 무게가 실린다. 어림한 세계 모델은 뮤제로가 보이듯 걸음마다 탐색으로 바로잡을 수 있다. 나쁜 평가 신호는 그러지 못한다. 탐색 전체를 엉뚱한 방향으로 내몬다.

그 궤적은 시사하는 바가 있다. 알파고(2016, 게임)에서 알파폴드(2020, 생물학, 2024년 노벨상)로, 다시 펀서치(2023, 수학, 《네이처》 게재)로. 최근의 시스템들은 이 구조가 바깥으로 뻗고 있음을 시사한다. ASI-ARCH라 불리는 2025년의 한 사전 인쇄본은 사람이 설계한 기준선을 능가하는 새로운 신경망 구조 106개를 발견했다. 걸음마다 더 어려운 영역으로 손을 뻗는다. 걸음마다 성공하는 까닭은 충분한 평가 신호가 존재하기 때문이다. 최전선은 평가 신호가 바닥나는 곳에 있다. 다음으로 뚫릴 작업 흐름은 기관의 판단을 비교적 안정된 루브릭으로 쪼갤 수 있는 것들이다. 규정 점검이 많은 검토, 범위가 정해진 임상 분류, 되풀이되는 재무 분석. 가장 마지막까지 남는 작업 흐름은 취향이 쪼개지기를 끝내 거부하는 것들이다.

닫으며

이제 바벨의 도서관에는 완벽한 사서가 있다. 단어의 모든 조합이 우리 손끝에 있다. 그러나 그 사서가 나무를 대신 걸어 주지는 못한다.

2012년에 나는 주제 위계의 무한한 나무를 항해하고 있었다. 2016년에 알파고는 바둑판 국면의 무한한 나무를 항해했다. 이제 나는 설계 결정의 무한한 나무를 항해하는 시스템의 취향 함수로, 곧 그 평가 판단이 탐색을 다룰 만하게 만드는 신호인, 고리 속의 인간으로 하루하루를 보낸다. 한때 내가 모델링했던 그 구조가 이제 내가 깃들어 사는 구조다.

그 걸음에는 취향이 필요하고, 취향은 한 생애를 하나의 판단으로 압축한 것이다. 그것은 짜 맞춰지기보다 느껴지는 것이라고, 한 세기 전 푸앵카레는 알았다. 그것은 가치망이라고, 십 년 전 알파고는 보여 주었다.

단어의 비용은 0으로 갔다. 취향의 비용은 그러지 않았다.

¹ “Modeling Topic Hierarchies with the Recursive Chinese Restaurant Process,” CIKM 2012.