왜 코드는 컴파일되고 법은 그러지 못하는가
다음 AI 전환을 가르는 것은 누가 가장 큰 모델을 훈련하느냐가 아니라 누가 검증기를 짓느냐다.
검증 가능한 보상으로 강화 학습을 해 온 시대로 두 해가 흐르는 사이, AI 능력의 지형에 기이한 일이 벌어졌다. 코드 모델은 2023년이었다면 도무지 있을 법하지 않게 여겨졌을 수준으로 돌아가는 코드를 쓴다. 수학 모델은 한 해 전만 해도 학계를 무너뜨리던 올림피아드 문제를 푼다. 그러나 법적 추론은 그만큼 나아가지 못했다. 임상 판단도 마찬가지다. 문학적 글쓰기도 마찬가지다. 빠르게 컴파일되는 영역과 멈춰 선 영역 사이의 간극은 좁아진 것이 아니라 넓어졌다.
흔한 설명들은 이미 떠돌고 있다. 능력 간극 이야기가 있다. 모델이 끝내 충분히 똑똑해지면 모든 영역이 컴파일되리라는 것이다. 데이터 간극 이야기가 있다. 느린 영역에 훈련 데이터가 더 필요할 뿐이라는 것이다. 스캐폴딩 간극 이야기가 있다. 더 나은 에이전트와 검색이 기반 모델로는 못 하는 것을 풀어 주리라는 것이다. 저마다 일부는 맞고, 저마다 실제로 벌어지는 일을 놓친다.
간극은 구조적이다. 간극을 정하는 것은 영역이 가졌거나 못 가졌거나 둘 중 하나인 한 성질이다. 그 안에서 검증이 생성보다 구조적으로 더 값싼가 하는 성질이다. 그 비대칭이 있는 곳에서는 훈련 고리가 닫히고, 데이터가 연산과 함께 불어나며, 컴파일이 빨라진다. 비대칭이 어긋나는 곳에서는 데이터가 사람의 품에 묶여 막히고, 능력이 아무리 자라도 남은 거리를 좁히지 못한다. 이것이 이 틀의 예측력이다. 어떤 영역은 컴파일되고 어떤 영역은 구조적으로 그러지 못할 것이며, 둘을 가르는 것은 AI가 얼마나 어려운가가 아니다. 영역이 규모 확장을 작동하게 하는 그 비대칭을 내어 주는가다.
이 글은 그 주장을 펼친다. 컴파일 명제(Compilation Thesis)를 확장하되 컴파일 밑에 깔린 기제를 짚어 내고, 학계가 줄곧 가벼이 다뤄 온 구체적인 연구 프로그램으로 끝맺는다. 더 나은 기반 모델이 아니라 검증기 구축이다.
RLVR이 실제로 노리는 것
여기 빌려 올 만한 컴퓨터 과학의 구조적 관찰이 하나 있다. P 대 NP는 흔히 어떤 문제가 다룰 만한가에 관한 물음으로 진술되지만, 그 밑에 깔린 통찰은 비대칭에 관한 것이다. 어떤 문제에서는 답을 찾기는 어렵지만 확인하기는 쉽다. 스도쿠의 풀이안이 주어지면 몇 초 만에 검증할 수 있다. 맨바닥에서 풀이를 찾기는 훨씬 어렵다. 생성의 비용과 검증의 비용 사이의 그 비대칭이야말로, 확인할 후보가 손에 있을 때 한 부류의 탐색 문제를 통째로 다룰 만하게 만드는 것이다.
검증 가능한 보상으로 하는 강화 학습은 이 통찰을 응용한 형태다. 훈련 고리는 후보 풀이를 생성하고, 값싼 검증기에 통과시키고, 살아남은 것으로 훈련한다. 그 고리의 효율은 바로 P 대 NP 틀이 따지는 그 비율, 곧 검증 비용 대비 생성 비용이 정한다. 코드와 수학은 비율이 높은 영역이다. pytest는 밀리초가 들지만 옳은 코드를 쓰는 데는 진짜 인지 노동이 든다. Lean의 타입 검사기는 몇 초 만에 돌지만 증명을 찾는 데는 수학자의 평생이 걸릴 수도 있다. 비대칭이 어마어마하고, 그것이 이 영역들을 가장 먼저 컴파일되게 만들었다. 쉬워서가 아니다. 검증과 생성의 간극이 훈련 고리를 규모 있게 키우도록 해 주기 때문이다.
이 글의 나머지가 답하려는 물음은, 그 간극이 있으려면 영역에 무엇이 필요한가다.
세 가지 전제 조건
세 성질이 함께 영역이 그 비대칭을 가지는지를 정한다. 코드와 수학은 셋을 다 가졌다. 느리게 컴파일되는 영역은 저마다 다른 부분집합에서 어긋난다.
입력 완결성. 검증기가 확인하는 문제는 온전히 규정되어 있어야 한다. 수학 정리의 진술은 완결되어 있다. 증명할 주장이 적혀 있고, 증명된 것은 그에 들어맞거나 들어맞지 않거나다. 함수 시그니처에 테스트 묶음을 더하면 완결된다. 함수의 입력과 기대 출력이 고정되어 있다. 의뢰인의 법적 상황은 완결되어 있지 않다. 사건에 중요한 사실들이 증거개시에서, 또는 증언녹취에서, 또는 상대편의 제출 서류에서 떠오른다. 환자의 양상도 완결되어 있지 않다. 증상은 변하고, 동반 질환은 서로 얽히며, 참된 진단은 의사가 아직 떠올리지 못한 무엇일 때가 많다. 입력 완결성이 없으면 검증기에게는 비추어 확인할 명확한 대상이 없다. 입력이 아직 움직이고 있으니 “이 출력은 그 입력에 대해 옳다”고 말할 수 없다.
합의 검증가능성. 유일하게 옳은 답이 있어야 하거나, 자격 있는 검토자들이 동의할 만큼 거기에 가까워야 한다. 증명은 타입 검사를 통과하거나 못 하거나다. 테스트는 통과하거나 실패하거나다. 법률 의견서의 옳고 그름은 원리상 합의로 검증할 수 있다. 충분히 정통한 변호사라면 읽고서 그것이 제 몫을 하는지를 두고 동의에 이를 수 있다는 뜻이며, 다만 그 검증이 현실에서 값비쌀 뿐이다. 법률 사건에서 어긋나는 것은 합의가 아니라 입력 완결성이다. 단편 소설의 됨됨이는 어느 층위에서도 합의로 검증되지 않는다. 독자마다 취향이 다르다. 전통마다 기준이 다르다. 문학적 판단은 수렴하지 않으며, 검토자에게 무한한 시간과 완벽한 주의가 주어져도 비추어 볼 유일한 진실은 없다.
걸음 종결 검증가능성. 검증기는 다음 걸음에 알려 줄 만큼 빠르게 신호를 돌려줘야 한다. pytest는 밀리초 안에 돌려준다. Lean은 몇 초 안에 돌려준다. 훈련 고리가 아직 돌아가는 동안 신호가 도착한다. 재판의 결과는 몇 해 뒤에 돌아오고, 그조차 결정과 판결 사이에 벌어진 모든 일로 뒤엉켜 있다. 환자의 참된 예후는 수십 년이 지나도록 알 수 없을지 모르며, 그사이 거쳐 간 처치들이 그 결과의 뜻마저 바꿔 놓는다. 걸음 종결 신호가 없으면 과거 데이터로 훈련할 수는 있어도 컴파일을 진짜로 빠르게 하는 그 상호작용 고리를 닫지는 못한다.
코드와 수학은 세 성질을 다 가졌다. 법적 추론은 첫째에서 어긋난다. 의료 진단은 첫째에서 어긋나고 셋째에서도 일부 어긋난다. 창작 글쓰기는 둘째와 셋째에서 어긋난다. 세 전제 조건, 서로 다른 실패의 결, 서로 다른 컴파일 궤적. 이 결이 능력 간극 이야기와 데이터 간극 이야기가 설명하지 못하는 것을 설명한다. 비슷한 수준의 투자에서도 왜 어떤 영역은 빠르게 컴파일되고 다른 영역은 멈춰 서는가다.
“법적 추론”이나 “의료 진단” 같은 말은 안으로 갈래가 제각각인 일을 뭉뚱그린 거친 바구니다. 법률 조사와 문서 한정 검토는 재판 전략보다 그 비대칭에 더 가까이 놓인다. 의료 영상과 약물 용량 조절은 끝이 열린 임상 추론보다 더 가까이 놓인다. 범주 단위의 주장은 영역마다의 위세 핵심에 관한 것이지 그 안의 모든 과제에 관한 것이 아니다. 이 글 뒤편의 분해는 바로 이 비균질성에 기댄다.
이것이 실제로는 어떻게 보이는가
세 전제 조건이 다 들어맞으면 놀라운 일이 가능해진다. 훈련 데이터를 합성으로 만들어 낼 수 있다. 후보 문제를 던지고, 검증기가 풀이를 거르게 하고, 검증된 짝을 남긴다. 데이터셋은 사람의 품이 아니라 연산과 함께 자란다. PRM800K가 75,000개 수학 풀이에 걸쳐 800,000개의 걸음 단위 정오 라벨을 가진 까닭이 이것이다. 검증된 테스트 커버리지를 갖춘 코드 데이터셋이 사실상 끝이 없는 까닭이 이것이다. 검증기는 훈련 중의 신호이기만 한 것이 아니다. 훈련 집합 자체가 규모 있게 자라게 하는 그 기제다.
전문 영역과 창작 영역의 전문가 판단 데이터셋은 이렇게 하지 못한다. 가장 많이 인용되는 창작 글쓰기 평가 벤치마크, 곧 LLM 평가자가 전문 작가를 대신할 수 있는지를 다룬 차크라바티의 2024년 CHI 논문은 48편의 이야기를 14개의 이진 전문가 검사로 평가한다. 그러면 라벨이 붙은 판단이 대략 672개쯤 되며, 그 논문의 머리기사 발견은 LLM 평가자가 전문가 평가와 거의 0에 가까운 상관을 보였다는 것이다. 임상 추론 벤치마크는 대체로 수천 건의 낮은 자릿수에 머문다. 법적 추론 벤치마크도 비슷하다. 코드·수학 훈련 규모와 전문가 판단 훈련 규모 사이의 간극은 고정된 배수가 아니다. 그것이 더 깊은 핵심이다. 한 곡선은 연산과 함께 자란다. 다른 곡선은 사람의 품과 함께 자란다. 의미 있는 어떤 시간 지평에서든 연산 확장 곡선은 사람 품 곡선을 임의로 큰 폭으로 압도한다. 간극은 숫자가 아니다. 끝없이 벌어지는 발산이다.
영역에 특화된 언어 모델을 지어 보려 한 사람이라면 누구나 이 벽에 부딪혔고, 늘 같은 벽이 다른 모습으로 나타난다. 처음엔 도구의 문제라고, 아니면 라벨 예산의 문제라고, 아니면 노동 시장의 문제라고 여기며 시작한다. 그중 어느 것으로 다루며 여섯 달을 보낸다. 끝내 깨닫는 것은 영역이 데이터를 움켜쥐고 있는 게 아니라는 사실이다. 영역은 비대칭을 움켜쥐고 있으며, 아무리 모으려 애써도 구조적으로 모을 수 있는 것 자체가 달라지지 않는다.
이것이 더 근본적인 무언가를 가리킨다. 규모 있는 훈련 고리를 닫는 데 필요한 검증기는 곁다리 도구가 아니다. 코드와 수학에서 검증기는 풀이와는 별개의 산물이다. pytest가 코드를 쓸 필요는 없다. Lean이 증명을 찾을 필요는 없다. 둘은 일 자체를 해낼 능력은 없으면서도 일을 확인할 수 있는 독립된 시스템이다. 법적 추론에서, 훈련 고리를 닫는 데 필요한 수준으로 의견서의 됨됨이를 미덥게 검증하는 검증기는 의견서를 쓰는 것과 똑같은 판단을 요구할 것이다. 고참 변호사가 읽는 그 방식으로 읽지 않고서 의견서의 됨됨이를 확인하는, 더 값싼 독립 시스템이란 없다.
부분적 평가기는 어디에나 있고, 더러 쓸모도 있다. 이 주장은 그런 평가기에 관한 것이 아니다. 영역이 정말로 중히 여기는 판단 수준에서 규모 있는 훈련 고리를 닫는 데 필요한 검증기에 관한 것이다. 그 수준에서, 그 영역에서, 더 값싼 독립 검증기는 전체 전문가 판단 자체로 녹아 사라지고, RLVR이 노리는 그 비대칭도 함께 사라진다.
검증기가 곧 영역이다.
비대칭을 짓는 세 가지 방법
컴파일 속도를 정하는 것이 검증과 생성의 비대칭이라면, 영역 AI에서 무게를 지는 연구 프로그램은 학계가 지금 우선시하는 것이 아니다. 무엇보다 더 나은 기반 모델이 아니다. 더 나은 에이전트나 검색이 아니다. 검증기 구축이다. 뒤따르는 세 가지 공학적 움직임은 비대칭이 제 스스로 있지 않은 곳에서 그것을 짓는 서로 다른 방법이다.
분해는 검증기가 빈약한 과제를 검증기가 넉넉한 하위 과제로 쪼개는 움직임이다. 법률 일이 이 결을 가장 또렷이 보여 준다. 모두가 입에 올리는 법률 실무의 부분, 곧 작성과 전략은 세 전제 조건을 가진 부분이 아니다. 학계가 잡일로 치는 부분이 그것을 다 가졌다. 증거개시, 곧 사건에 관련된 문서를 찾으려 수백만 건을 헤집는 그 일은 입력 완결성(문서는 고정되어 있다), 합의 검증가능성(자격 있는 변호사들이 문서가 관련 있는지를 두고 대체로 동의한다), 걸음 종결 검증가능성(고참 변호사가 몇 분 만에 표본을 확인할 수 있다)을 가졌다. 증거개시는 검증기가 빈약한 영역 안에 자리한 검증기가 넉넉한 하위 과제다. 이 틀이 내놓는 예측은 직관에 반하며, 나는 그것이 대다수 독자가 기대하는 위계를 뒤집는다고 본다. 법률 일에서 빛나지 않는 부분이 위세 있는 부분보다 훨씬 빠르게 컴파일될 것이다. 고참 변호사급 이상의 의견서 작성은 지금의 패러다임 안에서 멈춰 서고, 그러는 동안에도 증거개시 일은 전문가 인간이 하는 일에 상당히 가까워질 것이다. 이것이 일반적인 결이다. 분해는 바깥에서 보기엔 한결같이 어려워 보이는 영역 안에서 컴파일될 수 있는 섬들을 찾아낸다.
세 움직임 가운데 분해가 가장 두루 미덥다. 대리 지표 구축은 자연히 생겨난 상관 신호에 기대는데, 그것은 영역에 달려 있다. 합성 정답은 훈련 신호가 일반화할 만큼 풍부한가에 기대는데, 그것은 규모가 모든 것을 푼다는 내기를 더 작은 규모에서 다시 거는 셈이다. 분해는 영역이 검증기가 넉넉한 하위 구조를 품고 있는가에만 기대며, 큰 전문 영역은 대부분 그렇다. 나머지 두 움직임은 통하는 곳에서 통한다. 분해는 그 첫 움직임을 시도해 볼 여지가 있는 곳이라면 거의 어디서나 통한다.
대리 지표 구축은 값싸게 계산되는 신호를 지어, 값비싸게 계산되는 진실과 상관 짓는 움직임이다. 단위 테스트가 본보기다. 테스트 묶음은 프로그램이 온전한 의미론적 뜻에서 옳은지를 검증하지 않는다. 유한한 사례 집합에서 프로그램이 기대 출력을 내는지를 검증한다. 테스트 통과와 옳음 사이의 상관은 개발을 이끌 만큼은 강하고 으레 깨질 만큼은 약하며, 소프트웨어 업계 전체의 품질 기반시설은 그 두 사실 사이의 틈에 세워져 있다. 켄트 벡이 1990년대 후반에 테스트 주도 개발을 형식화했을 때, 그는 엔지니어들이 이미 암묵적으로 하던 무언가에 이름을 붙이고 있었다. 그 규율이 무게를 지게 된 것은 테스트가 버그를 잡아내기 때문이 아니라, 비록 그러기도 하지만, 테스트가 자연히 있지 않던 값싼 검증기를 지어내기 때문이다. 이것이 그 움직임을 산업화한 것이다. MMLU나 HumanEval 같은 벤치마크는 대리 지표의 두 번째 형태로, 불완전하고 농락당하기 쉬우며 바로 값싸기 때문에 쓸모 있다. 그 농락당하기 쉬움 자체가 시사하는 바가 있다. 굿하트의 법칙은 대리 지표에 구조적으로 적용된다. 대리 지표가 목표가 되는 순간 참된 신호와의 상관이 닳는다. 공학적 규율은 농락당할 수 없는 대리 지표를 찾는 것이 아니다. 진실과의 상관이 한동안 최적화의 표적이 되어도 살아남을 만큼 강한 대리 지표를 찾는 것이다.
합성 정답은 검증기 모델을 전문가 데이터로 훈련한 뒤 그 훈련된 모델을 검증기로 쓰는 움직임이다. RLHF의 보상 모델이 본보기다. 훈련 중에 모델이 내는 출력마다 사람에게 값싸게 평가해 달라 할 수는 없으니, 유한한 인간 선호 집합으로 보상 모델을 훈련해 그 보상 모델을 검증기 대역으로 쓴다. 보상 모델은 진실과 다른 무언가를 재는 게 아니다. 진실 그 자체의 모델이며, 그 점이 대리 지표 구축과 다르다. 대리 지표는 마침 진실과 상관 짓는 다른 신호다. 합성 정답은 진실 그 자체를 훈련으로 근사한 것이다. 그 됨됨이는 훈련 신호가 근사하려는 그것을 얼마나 잘 담아냈는가에 온전히 달려 있으며, 차크라바티의 2024년 결과가 여기서 경계의 본보기다. 그 연구는 창작 산문을 평가할 때 LLM 평가자가 전문 작가와 거의 0에 가까운 상관을 보임을 드러냈다. 합성 정답은 원천 데이터가 훈련된 검증기를 일반화시킬 만큼 풍부할 때만 통한다. 전문가 신호가 너무 성기거나 너무 다투어질 때, 훈련된 검증기는 취향이 아니라 잡음을 담아내고, 자기끼리는 동의하면서 영역이 정말로 중히 여기는 전문가와는 어긋나는 매끈한 검증기를 얻게 된다.
최전선의 내기, 그리고 그것이 예측하는 바
이 틀에 맞서는 최전선의 내기는 극한에서는 이 모든 것이 중요하지 않다는 것이다. 충분히 유능한 기반 모델은, 그 논변에 따르면, 추론 시점에 충분히 미덥게 제 출력을 가늠함으로써든, 아니면 규모에서 사람이 모은 데이터를 능가하는 합성 전문가 판단 데이터를 만들어 냄으로써든, 스스로의 검증기가 된다. 이 견해에서 비대칭은 지금 모델 능력에 관한 한때의 사실이며, 기반 모델이 충분히 나아가면 이 틀이 빠졌다고 말하는 그 검증기들이 생겨난다.
이 틀의 답은 그것이 두 능력을 뒤섞고 있다는 것이다. 생성 능력과 검증 능력은, 같은 모델 안에서도, 같은 것이 아니다. 이것은 바둑과 체스를 푼 자기 대국과는 종류부터 다르다. 그 시스템들이 규모 있게 자란 것은 게임의 규칙이 모든 모의된 결과에 완벽하고도 사실상 공짜인 검증기를 내어 주었기 때문이며, 그 검증기는 위에 따로 지어 올린 것이 아니라 영역 자체의 일부였다. 전문 영역과 창작 영역에는 그런 내재 검증기가 없다. 어떤 검증기든 공학으로 지어 내야 하고, 그 공학이 어려운 대목이다. 사람이 만들어 낸 것으로 훈련된 기반 모델은 제 훈련 분포에서 공짜 검증기를 물려받지 못한다. 그 검증 능력의 천장은 훈련 중에 빨아들인 판단의 천장이다. 비대칭이 전문가 판단 수준에서 어긋나는 영역에서는, 그 전문가 판단이 훈련 분포에 두루 담겨 있지 않다. 전문가 신호는 성기고 다투어지고 뒤늦으며 제도에 매여 있고, 출력을 흉내 내는 모델의 능력은 그것을 검증하는 능력으로 옮겨 가지 않는다. 차크라바티의 2024년 연구가 그 실증적 증거다. 그 연구의 LLM 평가자들은 지금 모델이 내놓는 범위 안의 산문을 평가하고 있었으며, 전문가의 일처럼 보이는 산문을 쓰는 그들의 능력은 그것을 전문가 수준으로 가늠하는 능력으로 옮겨 가지 않았다. 여기서의 주장은 미래의 모델이 결코 강한 평가자가 될 수 없다는 것이 아니다. 평가자가 필요로 할 전문가 신호가 성기고 뒤늦고 다투어지는 영역에서, 그 능력을 생성 규모만으로 공짜로 얻지는 못하리라는 것이다. 스스로를 검증하는 기반 모델 가설은 규모가 모든 것을 푼다는 내기의 가장 센 형태이며, 이 틀은 그것이 어디서 왜 어긋날지를 콕 집어 예측한다. 비대칭이 구조적으로 없는 영역에서 어긋날 것이며, 그것은 곧 이 틀이 처음부터 다뤄 온 바로 그 영역이다.
이 틀이 독자에게 건네는 것은 당장 쓸 수 있는 연장이다. 어떤 AI 연구 프로그램이든 검증기를 짓고 있는지, 아니면 검증기가 알아서 나타나리라 가정하고 있는지를 물으라. 어떤 영역이든 비대칭이 어디에 있는지, 그리고 세 움직임 가운데 무엇으로 그것을 공학할 수 있는지를 물으라. 전문 영역과 창작 영역의 AI에서 진행되는 많은 일이 암묵적으로 검증기가 능력 성장으로 찾아오리라는 데 내기를 걸고 있다. 이 틀은 이것이 틀린 내기라고 말한다. 능력 성장이 도움이 안 되기 때문이 아니라 검증기가 빈약한 영역의 데이터셋 천장이 기반 모델의 향상과 함께 움직이지 않기 때문이다. 그 천장은 누군가 검증기를 지을 때에만 내려가며, 그것을 짓는 일이야말로 학계가 줄곧 가벼이 다뤄 온 일이다.
다음에 무엇이 컴파일되는가는 검증과 생성의 비대칭이 어디에 있거나 공학될 수 있는가에 달려 있고, 그것이 이 층위에서 컴파일 명제가 예측하는 바다. 분해나 대리 지표나 합성 정답으로 비대칭을 지을 수 있는 영역은 컴파일될 것이다. 세 움직임이 모두 어긋나는 영역은 가장 위험이 큰 일의 수준에서 판정에 값비싼 잔여를 끝내 남길 것이다. AI가 할 수 있는 일의 가장자리를 정하는 것은 AI가 무엇을 생각할 수 있는가가 아니다. 누군가 무엇을 검증 가능하게 만드는 수고를 했는가다.