논리로 우리는 증명하고, 직관으로 우리는 발견한다

오늘의 LLM이 뛰어난 증명 엔진인 까닭, 그리고 다음 2~3년이 '조용한' 발견 구조의 몫인 까닭

영어 원문에서 옮김

초록

내가 하는 가장 흥미로운 사고는 좀처럼 가지런한 문장의 사슬로 오지 않는다. 먼저 말 이전의 어떤 형태로 떠올라 뒤편에서 무르익다가, 마지막에야 비로소 한 문장으로 탁 맞물린다. 이 차이가 왜 중요한가. 현대 LLM은 정반대 인터페이스 위에서 자라 왔기 때문이다. 언어를 먼저 내세우고 한 번에 한 토큰씩, ‘추론’마저 텍스트로 풀어내는 인터페이스다. 그 방식은 강력하고 들여다보기 좋으며 엄청나게 생산적이지만, 그만큼 발견에 무거운 세금을 매긴다. 나는 지금의 LLM이 증명 엔진처럼 움직인다고 본다. 직렬로 나아가고, 말로 풀어낼 수 있고, 일관성의 압력을 받으며, 이미 알려진 길을 끝맺는 데 빼어나다. 반면 인간의 인지는, 특히 불현듯 떠오르는 통찰과 가설을 빚어내는 일은 전혀 다른 체제에 기댄다. 서로 맞지 않는 조각들을 한데 엉길 때까지 매단 채 붙들어 두는, 병렬의 잠재 작업 공간이다. 앞으로 24~36개월, 진짜 역량은 더 긴 사고 사슬에서 자라지 않는다. 발견을 증명에서 떼어 내는 구조에서 자란다. 잠재 공간에서 조용히 사고하고 내부 모의를 돌린 뒤에야 비로소 언어로 투영하는 모델이다. 이제 인지과학이 우리 안에서 벌어진다고 보는 일을 짚고, 오늘의 LLM이 그것을 어떻게 비추고 또 놓치는지를 살핀 다음, 다음 물결을 규정할 구체적인 시스템 패턴을 그려 보겠다.

슬라이드 링크 https://gxnzdfgg.gensparkspace.com/

1. 문장으로 말하지 않는 아침의 생각

나는 무언가가 이미 “거기 있는” 채로 깨어났다.

정당화할 수 있는 결론도, 되짚어 펼칠 수 있는 삼단논법도 아니었다. 그보다는, 내가 잠든 사이 몇 개의 발상이 분명 서로 흥정을 벌여 놓은 어떤 배치에 가까웠다. 거기에 중요하다는 감정의 꼬리표가 붙어 있었고, 여기를 보라고 이르는 내면의 화살표 같은 것이 함께 있었다. 몇 분이 지나서야 그것은 언어가 되었다.

이것은 어떤 ML 블로그보다도 푸앵카레가 더 잘 붙든 종류의 순간이다.

논리로 우리는 증명하고, 직관으로 우리는 발견한다.

우리는 ‘직관’을 두루뭉술한 딱지처럼 다룬다. 그러나 그 현상학은 구체적이다. 발견은 흔히 말 이전에 시작된다. 그것은 ‘시스템 1’의 충동성, 곧 불쑥 내뱉는 빠른 패턴 맞추기가 아니다. ‘시스템 2’의 서술, 곧 느리고 명시적인 단계 밟기도 아니다. 그것은 제3의 양식, 곧 부화하는 인지에 더 가깝다. 문장 단위의 자취를 따라 행진하지 않고도 멀리 떨어진 표상들을 한데 묶어 내는, 뒤편의 통합이다.

이제 불편한 대목은, 오늘의 LLM이 정반대 양식에 맞추어 최적화되어 있다는 점이다. 그것들은 프롬프트를 일관된 선형의 산물로 바꾸는 데 놀랍도록 뛰어나다. 증명을 쓰고, 단계별 추론을 만들어 내며, 사고처럼 보이는 설명을 내놓을 수 있다. 그러나 그렇다고 해서 그것들이 곧 좋은 발견자라는 뜻은 아니다.

내가 앞으로 몇 해를 걸겠다는 명제가 여기 있다.

지금의 LLM은 대체로 증명 엔진이다. 그것들은 직렬이고 말로 풀어낼 수 있으며 “다음 토큰을 내놓아야 한다”는 인터페이스에 묶여 있다. 발견을 흉내 낼 수는 있으나 그 대가로 무거운 세금을 치른다. 내가 말하는 발견이란, 불확실성 아래에서 새 잠재 구조를 제안하며 가설을 생성하는 일이지, 주어진 추론 흔적을 그저 이어 가는 일이 아니다.

다음 2~3년은 그 둘을 떼어 내는 구조에 관한 것이 될 것이다. 탐험하고 모의하고 통합할 수 있는 ‘조용한’ 발견 기반, 그리고 그 뒤를 이어 그 결과를 언어로 투영하는 증명·설명 레이어다.

2. 진짜 병목은 지능이 아니다. 인터페이스다

인간도 LLM도 선형의 언어 흐름으로, 곧 한 단어 뒤에 또 한 단어를 잇대어 소통한다. 그 흐름은 좁은 통로다. 우리가 말을 할 때, 마음이 꼭 지니고 있던 것도 아닌 어떤 차례에 스스로를 묶는다. 트랜스포머가 해독을 할 때도, 뒤따르는 모든 것의 맥락이 될 한 토큰에 스스로를 묶는다.

그 흐름 아래에는 다른 무언가가 산다. 잠재 작업 공간, 곧 부분적인 발상들이 함께 머물 수 있는 고차원의 분산된 상태다. 인지과학에는 인지를 병렬 제약 충족으로 보는 오래된 갈래의 모델들이 있다. 상호작용하는 수많은 요인이 하나하나 헤아려지는 대신 함께 “가라앉으며” 일관성에 이른다고 보는 것이다. 신경과학에서 이를 화해시키는 영향력 있는 한 방식이 전역 작업 공간 이론이다. 수많은 병렬의 무의식 처리가 경합하다가 한 연합이 “이겨”, 내가 보고할 수 있는 단 하나의 의식 내용이 된다는 것이다.

이 틀은 현대 트랜스포머의 행동에 묘하리만치 잘 들어맞는다. (이것은 병목과 조율의 층위에서 그어 보는 유비일 뿐, 생물학적 등가성에 관한 주장이 아니다.)

  • 병렬 잠재 계산은 순전파 안에서 일어난다. 은닉 상태, 어텐션 헤드, 잔차 흐름이 그렇다.
  • 직렬 방송은 해독에서 일어난다. 한 토큰이 골라져 맥락에 덧붙는다.

결정적인 손실은 그 사이에서 일어난다. 풍부한 잠재 상태가 하나의 수열로 표현되어야 할 때, 정보는 떨어져 나가거나 일그러진다. 나는 이를 투영 간극(projection gap)이라 부른다. 고차원 잠재 기반에 표상된 것과, 선형의 서사로 압축될 때 살아남는 것 사이의 어긋남이다.

투영 간극은 자기 안에서 느낄 수 있다. 무언가를 “알지만” 아직 말하지 못할 때가 있다. 일관성을 감지하면서도 그 이유를 줄줄이 댈 수 없을 때가 있다. 해법을 그려 볼 수는 있으나 차례대로 설명하려 들면 막힐 때가 있다.

LLM에서도 같은 것이 보인다. 모델은 흔히 답을 일찍, 그러니까 잠재 상태로 “알지만” 그래도 긴 설명을 내놓는다. 강요된 사고 사슬은 인과적으로 충실하지 않은 그럴듯한 서술로 새어 가기도 한다. 모델이 토큰 하나하나로 계속 나아가야만 하기에, 초기의 실수가 줄줄이 번진다.

언어는 사고가 아니다. 그것은 병목을 거친 사고의 투영이다. 그 투영을 과정 자체로 착각할 때, 우리는 증명을 발견으로 오인한다.

3. 인지과학이 직관과 불현듯 떠오르는 생각에 관해 실제로 말하는 것

사람들은 모든 정신 현상을 ‘시스템 1 대 시스템 2’에 욱여넣기를 좋아한다. 가르치기에 유용한 도구이긴 하나, 통찰을 담아내기에 충분한 모델은 아니다. 인지과학과 신경과학이 대체로 뒷받침하는, 좀 더 땅에 발붙인 그림은 이렇다.

3.1 통찰은 흔히 부화하다 문턱을 넘는 일이다

‘통찰’을 요하는 문제 풀이에서 사람들은 자주 같은 이야기를 한다. 막혀 있다가, 한 걸음 물러서거나 마음이 떠돌고, 그러다 느닷없는 “아하!”의 순간이 온다는 것이다.

이것은 두 국면으로 이루어진 동역학과 들어맞는다. 한쪽은 병렬의 배경 처리다. 무의식적으로 연상을 더듬고, 제약을 느슨히 풀며, 표상에 매긴 무게를 다시 저울질한다. 다른 한쪽은 전역 점화, 곧 의식적 접근이다. 일관된 해법이 충분히 강해지면 의식으로 올라와 보고할 수 있는 것이 된다.

그 “아하”는 마법이 아니다. 분산된 시스템이 수렴하여 단 하나의 해석이 이길 때, 그것이 어떻게 느껴지는지를 가리키는 말일 뿐이다.

3.2 마음의 떠돎은 사고의 부재가 아니다. 다른 배분 체제다

뇌에는 의도적 통제와 맞물린 신경망들이 있고, 안에서 절로 생겨나는 사고와 맞물린 신경망들이 있다. 샤워를 하거나 걷거나 반쯤 잠들었을 때, 위에서 내리누르던 과제 통제가 느슨해진다. 그것은 ‘더 멍청한 모드’가 아니다. 탐색의 기하가 달라질 뿐이다. 지금의 언어 서사가 거는 제약은 줄고, 멀리 떨어진 것끼리 이어 붙을 기회는 늘어난다.

이것이 중요한 까닭은, 발견이 흔히 지금 갇혀 있는 국소 최적점을 벗어나기를 요구하기 때문이다. 최적화의 용어로 말하면, 부화는 때때로 온도를 높이는 일, 곧 갇혀 있는 골짜기를 빠져나오는 통제된 방법이다.

3.3 말 이전의 사고는 실재하고, 흔하며, 충분히 이론화되지 않았다

행동 연구와 환자 사례, 내성을 표집하는 방법에서 나온 증거가 한결같이 가리키듯, 모든 사고가 말로 이루어지지는 않는다. 사람들은 심상을, 공간의 구조를, 정서의 꼬리표를, ‘기호로 옮겨지지 않은’ 생각을 보고한다. 문장 하나 없이도 또렷한 의도나 발상을 품을 수 있다.

‘직관’이 표준적인 ‘시스템 1 대 시스템 2’ 이분법에 잘 들어맞지 않는 까닭이 여기 있다. 지금의 ML 담론에서, 이를테면 최신 추론 모델을 두고 말할 때, 우리는 흔히 시스템 2를 명시적인 언어 직렬화, 곧 토큰을 단계별로 찍어 내는 행위와 한데 묶는다. 그러나 깊은 인지 작업이 늘 언어의 사슬인 것은 아니다.

진짜 발견은 제3의 양식에서 돌아간다. 시스템 2처럼 느리지만, 그러니까 시간과 연산이 들지만, 시스템 1처럼 말이 없다. 기호 논리가 아니라 고차원 연상 위에서 돌아가기 때문이다. 기계가 발견하기를 바란다면, 우리는 ‘추론’이 늘 기록처럼 보여야 한다는 요구를 그만두어야 한다.

시스템식 서술은 직렬이고 기호적이며 보고할 수 있다. 부화하는 통찰은 흔히 병렬이고 하위 기호적이며 아직 보고할 수 없다. 기계가 발견하기를 바란다면, 발견이 곧장 문장으로 태어나야 한다는 요구부터 거두어야 한다. 인간은 그렇게 하지 않는다. 우리는 잠재 작업 공간이 그 어수선한 통합을 맡게 두고, 언어로 옮기는 일은 그 뒤에야 한다.

4. 사고 사슬이 돌파구이자 덫인 까닭

사고 사슬(CoT) 프롬프트는 진짜 해금이었다. 모델에게 “단계별로 생각하라”고 청하면 여러 단계를 거치는 과제의 성능이 좋아지고 오류가 눈에 보이게 된다. 그러나 그것은 분야 전체를 어떤 미묘한 혼동 쪽으로 슬며시 떠밀기도 했다. 우리는 추론을 텍스트로 두고 최적화하기 시작했다. 그리고 여기에는 시간이 갈수록 겹겹이 쌓이는 세 가지 비용이 따른다.

4.1 직렬화 세금

모델이 중간의 인지를 토큰으로 표현해야 한다면, 진짜 정보를 담지 못할 수도 있는 서술에 연산과 맥락을 치르는 셈이다. 시스템에게 말을 내뱉어 “사고할 시간을 사도록” 강요하는 꼴이다. 인간도 이것의 한 판본을 한다. 속으로 하는 말이 그렇다. 다만 우리는 말이 아닌 형식으로도 사고하는 반면, LLM은 기본값으로는 추론하는 그 순간에 그런 선택지가 없다. 해독 인터페이스가 주인 노릇을 한다.

4.2 서사 고착과 확정의 연쇄

자기회귀 해독은 확정의 기계다. 일단 토큰이 만들어지면 그것이 곧 프롬프트가 된다. 초기의 가정이 뒤따르는 모든 것을 닻처럼 붙든다. 이로써 ‘서사의 관성’이 생긴다. 뒤늦은 제약이 수정을 강제해야 마땅한 순간에도 모델은 그저 계속 나아간다. 인간은 “잠깐, 그건 지우자”라고 말할 수 있다. 맨몸의 해독기는 바깥 루프로 감싸 주지 않는 한 그러지 못한다.

4.3 보고 가능성 편향

시스템에게 스스로를 정당화하라고 청하면, 시스템은 정당화할 수 있는 쪽으로 기운다. 그것이 탐색을 일그러뜨릴 수 있다. 인간은 합리화한다. 분리된 뇌의 작화가 그 극적인 사례이지만, 일상의 설명도 흔히 진실보다 일관성을 지키려는 사후의 이야기다. LLM도 똑같이 한다. 다만 그 이야기를 유창하게 쓸 수 있을 뿐이다.

그러니 사고 사슬은 “모델이 제 마음을 보여 주는 것”이 아니다. 흔히 그것은 모델이 정답과 상관관계를 갖되 충실함이 보장되지는 않는 그럴듯한 서사를 내놓는 일이다. 투영 간극이 작동하는 모습이 바로 이것이다. 발견에 마음을 쓴다면 덫은 자명하다. 발견의 과정을 그 과정 자체를 바꾸지 않고서 설명으로 태어나게 강요할 수는 없다. 때로는 구조를 강제하며 도움이 되기도 한다. 그러나 때로는 우리에게 꼭 필요한 바로 그 양식을 막아 버린다.

5. 다음 물결, ‘조용히 생각하고 나서 말하라’ 구조

우리는 언어만의 인지에서, 언어를 인터페이스 레이어로 두는 잠재 우선의 인지로 옮겨 가리라 예상해야 한다. 다음 24~36개월을 규정할 패턴은 이런 것들이다.

5.1 잠재 메모지, 숨은 생각, 그리고 ‘조용한’ 추론

직렬화 세금에 대한 가장 직접적인 처방은 단순하다. 모델에게 공개 토큰을 내뱉지 않고도 계산할 공간을 주는 것이다. 사고 사슬을 영어로 적도록 강요하는 대신, 모델이 잠재 표현 속에서 내부 단계를 돌리게 두었다가 그런 뒤에야 답으로 투영하게 하는 것이다. 이것은 우리가 말없이 “문제를 끌어안고 앉아 있을” 때 하는 일을 구조로 옮긴 판본이다.

이 방향은 숨은 근거 토큰, 잠재 사슬, 멈춤·사고 단계, 내부 숙고 루프를 들여오는 연구들에서 이미 보인다. 하나같이 연산을 보이는 텍스트에서 떼어 내는 장치들이다. 모델은 출력의 길이를 늘리지 않고도 불확실성을 줄이는 데 연산을 쓸 수 있어야 한다.

5.2 발견 엔진을 증명 엔진에서 떼어 내라

가장 깔끔한 심성 모형은 두 단계로 쌓인 인지의 더미다. 하나는 잠재의 발견 엔진이다. 후보가 될 가설과 계획과 표상과 설명을 생성하고, 대안을 탐험하며, 내부 모의를 돌리고, 모호함을 견딘다. 다른 하나는 언어의 증명 엔진이다. 고르고 검증하고 전달한다. 구조화된 추론을 내놓고, 일관성을 점검하며, 출처를 인용하고, 코드를 쓴다.

이것은 ‘다중 행위자’ 접근과는 다르다. 그것은 기능의 분리, 곧 컴파일러 파이프라인에 가깝다. 프런트엔드는 추상 구문 트리를 생성하고, 미들엔드는 최적화하며, 백엔드는 코드를 내보낸다. 기반 모델이 여전히 자기회귀 해독기일지라도, 시스템 설계만으로 이것의 한 판본을 오늘 당장 구현할 수 있다.

5.3 바깥 루프의 인지, 표집과 비평자와 검증자와 도구

잠재 우선 구조가 주류가 되기 전까지, 우리는 모델을 감싸 인지의 장을 근사할 수 있다. 여러 초안을 뽑아 보는 표집으로 여러 해법의 궤적을 탐험한다. 비평자·검증자 루프로 내놓기 전에 제 답을 스스로 공격한다. 도구 사용으로 산술과 검색과 모의와 단위 테스트를 바깥에 떠넘긴다.

이것은 부화와 의식적 점검을 공학으로 옮긴 대응물이다. 먼저 배경에서 변이를 생성하고, 그런 다음 신중하게 검증하는 것이다. 실제로 이 패턴은 많은 과제에서 이미 단발의 사고 사슬을 능가한다. 확정의 연쇄를 줄여 주기 때문이다.

5.4 그저 더 많은 맥락이 아닌 기억

긴 맥락 창은 도움이 되지만, 쓸 만한 장기 기억과 같은 것은 아니다. 압축과 검색이 없으면 ‘더 많은 토큰’은 건초더미가 되어 버린다. 앞으로는 기억을 핵심 모듈로 다루는 구조가 늘어나리라 본다. 삽화적 요약, 의미 저장소, 검색 정책, 학습된 압축까지 말이다. 발견 엔진은 멀리 떨어진 것끼리 잇기 위해 구조화된 회상을 필요로 한다. 증명 엔진은 그것을 정당화하기 위해 추적 가능한 회상을 필요로 한다.

5.5 가소성, 거듭 떠오를 빠진 고리

생물학적 인지와, 배포된 대부분의 LLM 사이의 깊은 갈림 하나가 가소성이다. 뇌는 경험과 더불어 끊임없이 변한다. 대부분의 모델은 파인튜닝을 빼면 그러지 못한다. 가장 중요한 ‘직관’의 향상은 더 큰 모델에서 오지 않는다. 그것은 빠른 적응을 위한, 통제되고 안전한 장치에서 온다.

배포 환경에서 통제 없이 파라미터를 갱신하는 것이 아니라, 짧게 사는 연상을 빚고, 작동 중인 가설을 갱신하며, 핵심 역량을 파국적으로 덮어쓰지 않는 방식으로 국소의 맥락에서 배우는 시스템 말이다. 이것이 그저 처리만 하는 마음과 스스로를 갱신하는 마음의 차이다. 발견은 발상을 생성하는 일만이 아니다. 그것은 가설 공간을 다시 빚는 일이다.

6. 실천적 함의, 진짜 발견 시스템을 짓고 또 알아보는 법

지금 LLM으로 무언가를 짓고 있다면, 가져갈 요점은 이렇다.

6.1 더 긴 사슬에만 기대지 마라. 더 나은 탐색 기하를 위해 최적화하라

긴 사고 사슬은 깊이의 증거가 아니다. 흔히 그것은 모델이 가진 단 하나의 잣대인 토큰으로 시간을 사들이고 있다는 증거다. 그러니 다른 길을 가라. 다양성을 써라. 여러 초안이다. 구조화된 자기 공격을 써라. 비평이다. 단단한 도구를 써라. 실행과 검색과 테스트다. 늦은 확정을 써라. 가정을 일찍 잠그지 마라.

6.2 당장 내놓을 수 있는 구체적인 ‘발견에서 증명으로’ 루프

오늘 운영에 쓸 추론 에이전트를 설계한다면, 나는 그저 ‘단계별로 생각하라’고 프롬프트하지 않겠다. 말에 앞서 침묵을 짓도록 시스템을 설계하겠다. 목표는, 모델이 맥락 창에 확정으로 들어서기 전에 잠재 공간에서 불확실성을 풀어내도록 강제하는 루프다. 시스템은 높은 엔트로피의 후보 벡터를 생성하고, 그것을 검증기, 곧 도구와 단위 테스트에 부딪쳐 보며, 이긴 궤적을 서사가 아니라 구조화된 상태로 압축해야 한다. 해법을 찾아 검증한 뒤에야 비로소 증명 엔진이 깨어나 그 상태를 사람이 읽을 수 있는 설명으로 옮긴다.

6.3 피할 수 없는 맞교환, 들여다봄 대 인지

잠재 우선 추론으로 옮겨 갈수록 우리는 투명성을 얼마간 잃는다. 숨은 메모지는 성능을 높이지만 들여다볼 여지를 줄인다. 그러니 진짜 최전선은 모델을 조용히 사고하게 만드는 일만이 아니다. 그것은 우리가 여전히 믿을 수 있는 방식으로 모델을 조용히 사고하게 만드는 일이다. 그 말인즉, 검증할 수 있는 출력, 도구에 기댄 점검, 기계적 해석 가능성, 그리고 ‘보이지 않는 인지’를 결정적 위험으로 다루는 거버넌스 패턴이다.

결론

나는 다음 도약이, LLM에게 “단계별로 생각하라”고 더 세게 청하는 데서 온다고 보지 않는다. 그것은 마음에 관한 기본적인 무언가를, 생물학적이든 인공적이든 마음에 관한 무언가를 인정하는 데서 온다고 본다. 말은 사고가 일어나는 자리가 아니다. 말은 사고가 읽힐 수 있게 되는 자리다.

오늘의 LLM은 읽힘에 눈부시게 강하다. 청하는 대로 증명을 내놓을 수 있다. 그러나 발견은, 곧 명시적으로 계산하지 않은 발상을 안고 깨어나는 것처럼 느껴지는 그 일은, 다른 구조를 필요로 한다. 첫 토큰이 나오기 전에 부화하고 탐험하고 수렴할 수 있는 잠재 작업 공간이다.

다음 2~3년은 규모 너머로 나아갈 것이다. 그것은 빠져 있던 분리의 레이어를 짓는 일이 될 것이다. 어수선해도 되는 발견 엔진, 깔끔할 수 있는 증명 엔진, 그리고 그 둘 사이에서 투영 간극을 줄이는 다리 말이다.

그것이 ‘말하는 기계’에서, 좋은 발상이 그러하듯 먼저 조용히 그러고 나서야 말로 우리를 정말로 놀라게 할 수 있는 시스템으로 가는 길이다.

슬라이드 링크 https://gxnzdfgg.gensparkspace.com/