결합된 재귀
말뭉치는 그저 쌓이기만 하지 않는다. 그것은 다음 말뭉치를 만들어 낼 인지를 빚는다.
에이전트 집단에서는 이미 두 갈래의 재귀가 보인다. 저마다 또렷한 메커니즘으로 돌아간다. 저마다 따로따로 주목받아 왔다. 그러나 둘의 결합은 아직 누구도 짚어내지 못했고, 흥미로운 동역학은 바로 그 결합에 깃들어 있다.
조달 에이전트에서 어느 정당화 템플릿이 나타나기 시작한다고 해 보자. 처음엔 하나의 흔적 패턴일 뿐이다. 이윽고 알아볼 만한 하나의 장르가 된다. 그다음엔 상대측이 따져 보지도 않고 받아들이는 종류의 정당화가 된다. 그러고는 파인튜닝 데이터로, 평가 루브릭으로, 프롬프트 라이브러리로 들어간다. 여섯 달 뒤, 아무도 그것을 표준이라 이름 붙이기도 전에 새 에이전트들이 그것을 만들어 낸다. 말뭉치 속 한 산물로 시작한 것이 하나의 인지적 성향이 되어 있다.
이 궤적을 만든 것은 두 갈래의 재귀다. 첫째는 위계적이다. 추론이 산물을 낳고, 산물이 쌓여 패턴이 되며, 패턴이 굳어 추상물이 되고, 추상물이 제도적 위상을 쌓는다. 미래의 에이전트는 이 위계를 받아들이고, 다시 그 위계로 되먹여지는 더 많은 추론을 만들어 낸다. 이것이 말뭉치 축적이며, 구조로 보면 문화적 상속과 닮았다.
둘째는 인지적이다. 지금의 인지가 내놓은 산출물이 훈련 데이터, 평가 신호, 파인튜닝 목표, 프롬프트, 검색 자료가 되거나, 무엇을 배치할지 가르는 선택 기준이 된다. 이 피드백에서 자라난 인지는 다른 산출물을 내놓는다. 그 산출물이 다음 차례를 빚는다.
각 재귀는 그 자체로도 흥미롭다. 구조적으로 새로운 것은 둘의 결합이다.
추론의 위계
첫째 재귀는 산물 위에서 돌아간다.
에이전트가 추론할 때, 그것은 구조화된 내용을 만들어 낸다. 결정, 정당화, 도구 사용 시퀀스, 검색 단계, 자기 교정, 추론 흔적. 잘 계측된 배치에서는 이런 산물이 로그로 남는다. 어떤 곳에서는 색인까지 매겨진다. 드물게는 미래의 에이전트가 받아들일 수 있는 위계로 정리된다.
이 위계에는 자연스러운 층위가 있다. 개별 추론 흔적은 잎 층위에 놓인다. 수많은 흔적에 걸쳐 되풀이되는 추론 형식은 패턴이 된다. 충분히 많은 배치와 맥락에 걸쳐 되풀이되는 패턴은 굳어 추상물이 된다. 이름 붙은 추론 장르, 표준화된 템플릿, 인용 가능한 정당화 형식이다. 충분히 오래 살아남고 충분히 쓰인 추상물은 제도적 위상에 가까운 무언가를 쌓는다. 그것은 미래 추론이 암묵적으로 기대는 참조점이 되며, 이름만이 아니라 그것이 지닌 근거의 종류로도 인용된다.
이것은 보존과 귀속과 주소를 매길 수 있는 추상화가 갖춰진 곳에서 일어나는 말뭉치 형성이다. 그것이 갖춰지지 않은 곳에서는 같은 산물이 사적 로그로, 한순간의 흔적으로, 죽은 기록으로 쌓일 뿐이다. 말뭉치는 저절로 생기지 않는다. 무엇이 패턴이 되고 무엇이 흔적 층위에 머무를지를 가려내는 기반 설비가 있어야 한다.
이 재귀의 결정적 특징은 생성적이라는 점이다. 각 층위가 다음 층위의 입력을 만든다. 잎 추론이 패턴을 낳는다. 패턴이 추상물을 낳는다. 일단 안정된 추상물은 거기에 부합하거나 그 위에 쌓이는 새 추론을 낳는다. 위계는 제 스스로 이어질 조건을 만든다.
홀로 놓고 보면, 말뭉치는 하나의 문화적 상속 통로처럼 보인다. 인간 제도가 따를 수 없는 빈도로 산물이 전해지고 가려지고 그 위에 쌓이는 통로다.
인지 스택
둘째 재귀는 첫째보다 더 흩어져 있다. 단일한 메커니즘으로 돌아가지 않는다. 인지 스택의 서로 다른 부분을 서로 다른 속도로 갱신하는 여러 경로로 돌아간다.
지금은 세 경로가 무게의 대부분을 진다.
파라미터 상속. 어떤 산출물은 훈련 데이터나 파인튜닝 목표가 된다. 이 데이터로 훈련된 모델은 제가 내놓는 것을 빚는 성향을 얻는다. 주기의 빈도는 셋 중 가장 느리다. 기반 모델의 전면 재훈련은 여전히 달 단위로 주기가 매겨진다. 파인튜닝은 더 빠르게, 때로는 주 단위로 돌아간다. 이것은 모델링 레이어 논변이 쓰던 좁은 의미에서, 기반을 가장 직접 바꾸는 경로다.
선택을 거친 상속. 어떤 산출물은 평가, 벤치마크, 리더보드, 레드팀 시험, 배치 지표에 영향을 준다. 그 결과는 어느 한 모델의 파라미터가 바뀌는 것이 아니라, 어떤 모델이 상업적 선택에서 살아남느냐가 바뀌는 것이다. 개발자 생태계가 모범으로 여기는 산출물을 내놓는 모델은 배치를 통해 강화된다. 특정 선택 기준을 통과하지 못하는 모델은 그러지 못한다. 선택을 거친 상속은 흔히 며칠에서 몇 주에 이르는 공학적 빈도로 돌아가며, 단일 모델 계보 안이 아니라 생태계 전반으로 퍼진다.
맥락적 상속. 어떤 산출물은 프롬프트, 예시, 검색 자료, 메모리, 또는 미래 모델이 추론 시점에 어떻게 행동할지를 빚는 템플릿이 된다. 파라미터는 바뀌지 않고 모델이 선택되는 일도 없지만, 이전 인지가 만들어 낸 맥락이 인지를 조건짓는다. 이 경로는 가장 빠른 주기로, 때로는 몇 시간 단위로 돌아가며, 배치 사이가 아니라 배치 안에서 돌아간다.
이 세 경로는 성질이 다르다. 파라미터 상속은 오래가지만 느리다. 선택을 거친 상속은 빠르고 생태계 전반에 걸친다. 맥락적 상속은 가장 빠르지만 가장 국소적이다. 무엇을 전하느냐도 다르다. 파라미터 상속과 맥락적 상속은 내용을 직접 나른다. 산출물이 곧 미래 행동을 조건짓는 데이터나 맥락이 된다. 선택을 거친 상속은 내용을 간접으로 나른다. 어떤 시스템이 살아남느냐를 바꾸고, 살아남은 시스템이 제 내용을 앞으로 실어 나른다. 셋은 한 가지 특징을 공유한다. 인간 인지를 으뜸가는 전달 기반으로 삼지 않고도, 지금의 기계 인지가 미래의 기계 인지를 빚는 통로라는 점이다.
각 경로가 에이전트가 만든 내용 위에서 재귀할 때 무슨 일이 벌어지는지에 관한 실증 문헌은 아직 초기 단계지만, 이름 붙일 만한 발견으로 모이고 있다. 모델 붕괴에 관한 Shumailov와 동료들의 연구는, 원천에 충분히 닻을 내리지 않은 채 파라미터 상속이 재귀하면 여러 세대에 걸쳐 측정 가능한 모델 품질 저하가 생긴다는 것을 보인다. 자기 소비 생성 모델에 관한 인접 연구도 비슷한 결론에 이른다. 신선한 실제 데이터가 충분치 않으면 재귀적 훈련은 품질이나 다양성을 떨어뜨린다. 자기 보상 언어 모델 연구는 그 역을 보인다. 적절한 적합도 기준이 있으면 재귀적 훈련이 특정 축을 따라 모델을 개선할 수 있다. 선호 누수에 관한 최근 연구는 선택 쪽에서 이와 관련된 동역학을 보인다. LLM 기반 평가자는 가까운 모델 계보의 산출물을 편애하는데, 이는 선택 압력이 외부 품질을 좇는 대신 모델 패밀리 내부의 것이 될 수 있음을 뜻한다. 이것들은 단일 경로 재귀가 홀로 돌아가는 특수 사례다. 이중 재귀의 틀이 던지는 물음은, 이 경로들이 제 나름의 선택 동역학을 지닌 말뭉치와, 또 서로 다른 속도로 돌아가는 서로와 결합될 때 무슨 일이 벌어지는가다.
실증적 조건이 중요하다. 이중 재귀는 부분적으로 작동 중이고 가속하고 있다. 합성 데이터 파이프라인, 증류, 운영 로그로 하는 파인튜닝, 에이전트 흔적으로 하는 평가자 훈련, 모두 에이전트가 만든 산출물이 인지 스택으로 되먹여지는 사례다. 그러나 에이전트가 만든 내용이 아직 최전선 모델 훈련의 지배적 비중을 차지하지는 않는다. 여기서 그린 동역학은 그 비중이 커질수록 구조적으로 중대해진다. 조건은 실증적이다. 인지 스택 갱신의 지금 어느 비율이 에이전트가 만든 산물에서 오는가, 그리고 그 비율을 통해 어떤 선택 압력이 퍼지는가.
결합
각 재귀는 제 홀로 돌아간다. 흥미로운 동역학은 둘이 어떻게 맞물리느냐에서 나온다.
두 통로 사이를 오가는 단위는 추론 형식이다. 도입부의 조달 템플릿처럼, 결정을 정당화하는 되풀이 가능한 구조다. 추론 형식은 흔적으로 나타날 수도, 굳어 템플릿이 될 수도, 추상물로 이름 붙을 수도, 평가자에게 보상받을 수도, 프롬프트 라이브러리에 들어갈 수도, 모델에 학습될 수도 있다. 이중 재귀는 추론 형식 위에서 돌아간다.
첫째 재귀가 쌓는 산물은 둘째 재귀가 빚어 가는 인지가 만들어 낸 것이다. 둘째 재귀가 빚어 가는 인지는 첫째 재귀가 쌓아 온 산물 위에서 부분적으로 훈련되거나 평가되거나 조건지어진 것이다. 각 재귀는 다른 재귀가 그 위에서 돌아가는 기반이다.
앞서의 조달 정당화 템플릿이 말뭉치에서 널리 퍼질 때 무슨 일이 벌어지는지 보자. 미래의 에이전트는 말뭉치를 받아들이고 그 형식의 추론을 더 많이 만들어 낸다. 그 형식이 그들이 알아보고 만들어 내도록 배운 바이기 때문이고, 또 그 형식이 제도적 위상을 지녀 옳은 형식으로 옹호하기가 더 쉽기 때문이다. 그 형식은 첫째 재귀를 통해 퍼진다.
그 형식은 둘째 재귀를 통해서도 퍼진다. 그 형식을 만들어 내는 에이전트의 산출물은 파라미터 상속을 통해 훈련 데이터로 들어간다. 그 형식은 선택 상속을 통해 평가자에게 보상받는다. 그 형식은 맥락적 상속을 통해 프롬프트 라이브러리에 자리 잡는다. 모델은 그 형식을 성향으로 얻는다. 선택 시스템은 그 형식을 기대되는 산출물로 얻는다. 맥락 레이어는 그 형식을 기본값으로 얻는다.
그 결과, 그 형식은 두 통로를 통해 동시에, 둘째 재귀의 세 경로 전부에 걸쳐 강화된다. 말뭉치와 인지 스택 양쪽의 선택 압력을 만족시키는 형식은 퍼진다. 한쪽에서는 성공하지만 다른 쪽에서는 그러지 못하는 형식은 밀려난다.
이 결합을 매개하는 것은 특정한 선택 연산자들이다. 시스템이 마법으로 추론 형식을 고르는 것이 아니다. 저장 정책, 검색 시스템, 추상화 도구, 평가자, 보상 모델, 벤치마크 설계자, 데이터셋 큐레이터, 파인튜닝 파이프라인, 배치 관문, 마켓플레이스 순위 시스템이 그 선택을 한다. 각 연산자는 제 나름의 기준으로 선택한다. 많은 연산자가 같은 형식을 동시에 선택할 때 그 결합은 중대해진다.
연산자들이 정렬되는 곳에서는 형식이 고착된다. 충돌하는 곳에서는 형식이 두 통로 사이에 생산적 긴장을 만든다. 구조적 논변은 선택 연산자가 집중되는 곳에서 가장 강하다. 같은 조직이 로그, 평가자, 파인튜닝 파이프라인, 배치 관문, 마켓플레이스 순위를 통제하는 곳에서는 연산자들이 정렬되는 경향이 있다. 수직 통합된 생태계는 더 단단한 이중 재귀를 낳는다. 파편화된 생태계는 통로 사이에 더 많은 긴장을 낳는다. 연산자 집중이 어디로 향하는지, 그것 자체가 이중 재귀가 결정하도록 거들 무언가다.
이것이 구조적으로 뜻하는 바는, 에이전트 집단이 이중 상속에 견줄 만한 무언가를 지녔다는 점이다. 두 통로가 모두 공학적 빈도로 돌아가고 또렷한 선택 메커니즘을 갖춘 채로 말이다. 두 통로가 똑같은 속도로 도는 것은 아니다. 한쪽의 피드백이 상업적 계획 지평 안에서 다른 쪽을 빚을 만큼은 가깝게 돈다. 양쪽 통로에서 성공하는 형식은 빠르게 고착된다. 어느 한쪽에서 실패하는 형식은 빠르게 솎인다. 시스템은 어떤 인간 제도 체계보다 빠르게 제 끌개로 수렴하며, 긴 세대 시간 척도가 주는 느린 안정화의 영향 없이 그렇게 한다.
에이전트 규모의 이중 상속
Boyd와 Richerson은 인간 인지와 문화가 어떻게 공진화했는지 설명하려고 이중 상속 이론을 세웠다. 그 논변은, 인간 집단에 나란히 돌아가는 두 상속 통로, 곧 유전적 통로와 문화적 통로가 있다는 것이었다. 각 통로는 세대를 건너 정보를 전한다. 두 통로는 서로를 빚는다. 문화적 혁신은 유전에 선택 압력을 만들고, 유전적 역량은 문화적 혁신을 가능케 한다.
에이전트 집단의 이중 재귀는 구조적으로 이와 닮았다. 다만 중요한 차이가 둘 있다.
첫째, 통로들이 공학적 빈도로 돌아간다. 똑같은 속도는 아니다. 말뭉치 진화는 시간 단위로 돌아갈 수 있다. 선택을 거친 상속은 날 단위로 돈다. 파라미터 상속은 주에서 달 단위로 돈다. 기반 모델 재훈련은 달에서 한 해 단위로 돈다. 이 가운데 무엇도 생물학적·문화적 공진화를 빚는 세대 시간 척도에 미치지 못한다. 이중 재귀는 온전히 상업적 계획 지평 안에서 돌아가며, 이것이 적실한 비교다.
둘째, 통로들이 또렷하다. 인간의 문화적 상속은 불투명한 과정을 거쳐 일어난다. 모방, 언어, 전통이며, 그 메커니즘은 문헌에서 여전히 일부 다투어진다. 인간의 유전적 상속은 메커니즘이 알려져 있지만 직접 조종할 수 있는 것은 아니다. 에이전트 집단에서는 두 통로 모두 또렷한 메커니즘을 지닌다. 말뭉치는 우리가 지은 시스템으로 저장되고 색인되고 검색된다. 인지 스택은 우리가 지은 파이프라인으로 훈련되고 평가되고 배치되고 조건지어진다. 둘 다 원리상 조종될 수 있다.
가장 가까운 현대의 유비는 생물학적 진화가 아니다. 소셜 미디어 추천 루프다. 사람이 만든 내용이 순위 알고리즘을 빚고, 순위 알고리즘이 사람이 만드는 내용을 빚는다. 추천 루프는 부분적인 선례다. 에이전트의 경우가 다른 까닭은, 루프의 양쪽이 점점 더 기계 인지이기 때문이다. 에이전트가 만든 산물이 미래 에이전트를 훈련하고 선택하고 조건짓는 시스템을 빚는다. 추천 루프는 한쪽이 인지이고 한쪽이 인간이다. 이중 재귀는 루프의 양쪽이 다 인지다.
새로운 것은 피드백이 아니다. 상업 시스템은 수십 년간 피드백 루프를 지녀 왔다. 새로운 것은, 기계의 이성을 담은 산물과, 다음 차례의 그 산물을 만들어 내는 기계 인지 스택 사이의 피드백이다. 두 통로가 점점 더 또렷하고 계측되며 상업적 계획 지평 안에서 돌아가는 채로 말이다. 새로워 보이는 것은 그 조합이다. 또렷하고 조종 가능하며 빠른 두 상속 통로, 그리고 루프의 양쪽에 점점 더 자리 잡는 기계 인지다.
컴파일 명제(Compilation Thesis)는 병목이 스택 위쪽으로 옮겨 가며 판단이 어떻게 기반 설비로 컴파일되는지를 그린다. 기반-가지성(Substrate-knowability)은 다음 병목을 짚어냈다. 스택에서 판단과 방향 사이에 놓인 모델링 레이어다. 이중 재귀는 그다음에 오는 것을 짚어낸다. 이것은 스택의 새 레이어라기보다 기존 스택의 구조적 특징이다. 말뭉치 레이어와 인지 레이어 사이의 결합이, 스택이 시간이 흐르며 더 나은 인지로 수렴할지 아니면 양쪽 모두에서 나쁜 끌개로 수렴할지를 결정한다. 흥미로운 물음은 이제 좋은 추론 산물을 어떻게 만드느냐도, 더 나은 인지 기반을 어떻게 훈련하느냐도 아니다. 두 통로 사이의 결합을 어떻게 다스리느냐다.
결합이 낳는 네 가지 동역학
결합된 재귀들은 단일 통로 분석이 놓치는 동역학을 낳는다.
다채널 끌개로의 수렴. 양쪽 통로의 선택 압력을 만족시키는 추론 형식은 퍼진다. 한쪽에서는 빼어나지만 다른 쪽에서는 그러지 못하는 형식은 솎인다. 집단은 말뭉치와 인지 스택 둘 다가 선택하는 형식으로 빠르게 수렴한다. 이런 형식에는 특정한 꼴이 있다. 표준화되고, 재현하기 쉽고, 평가하기 쉽고, 배우기 쉽고, 옹호하기 쉬운 경향이 있다. 이런 형식은 독창적 통찰보다 관습적 추론을 편애하는데, 관습적 추론이야말로 두 통로를 통해 퍼지는 꼴을 지녔기 때문이다. AI 대 AI 소통 사슬에 관한 최근 연구는 이것이 실증적으로 어떤 모습인지 기록한다. 서사적 닻으로의 수렴, 증거적 결의 상실, 얼버무림과 귀속의 마모다. 위험은 추론 그 자체의 층위에서 일어나는 획일화(monoculture)다. 그리고 장기적 귀결은, 말뭉치의 획일화가 인지 스택의 획일화를 낳고, 그것이 다음 차례 말뭉치 산물의 획일화를 낳는다는 것이다. 고리는 제 위에서 닫힌다.
밀도가 문턱을 넘는 순간의 고착. 한 형식이 어느 한 통로에서 충분한 밀도에 이르면, 다른 통로를 통해 스스로 강화된다. 말뭉치에 널리 퍼진 형식은 그 형식을 더 많이 만들어 내는 인지 스택 갱신을 빚는다. 인지 스택에 박힌 형식은 말뭉치에서 제 존재를 강화하는 산물을 만들어 낸다. 어느 밀도를 넘으면 그 형식은 더 나은 형식이 있더라도 몰아내기가 몹시 어려워진다. 적실한 밀도는 날것의 개수가 아니다. 전략적으로 중요한 거래에서 차지하는 결정 물량의 비중, 적실한 파인튜닝 실행에서 차지하는 훈련 데이터의 비중, 적실한 배치 선택에서 차지하는 평가자 산출물의 비중이다. 중심에 있거나 널리 재사용되는 연산자에서 문턱을 넘는 밀도는, 결합을 통해 시스템 전반으로 퍼질 수 있다. 사적 배치 안의 밀도는 먼저 국소적 고착을 낳는다.
결합을 통한 연쇄. 한 재귀의 작은 변화가 다른 재귀에 큰 효과를 낳을 수 있다. 말뭉치에 더해진 영향력 있는 추상물 하나가 다음 차례의 훈련 데이터를 빚고, 그것이 말뭉치의 다음 차례 산물을 만들어 내는 인지를 빚는다. 평가자 행동의 미묘한 변화가 어떤 종류의 산물이 보상받는지를 바꾸고, 그것이 말뭉치에 무엇이 보존되는지를 바꾼다. 두 재귀가 서로에게 먹이를 주기에 교란은 퍼져 나간다. 이를테면, 새 컴플라이언스 추상물이 조달 말뭉치에 들어오고, 평가자가 그것에 보상하기 시작하며, 파인튜닝이 그것을 흉내 내고, 에이전트가 그것을 더 자주 만들어 내며, 상대측이 그것을 더 빨리 받아들이고, 다른 정당화 형식은 누가 공식으로 금하기도 전에 사라진다. 시스템에는 한 재귀가 다른 재귀의 충격을 흡수하게 해 줄 깔끔한 시간 척도 분리가 없다.
외부 접지의 쇠퇴. 형식은 본디 좇아야 할 외부 조건과의 접촉을 잃으면서도 양쪽 통로의 선택을 받을 수 있다. 한 정당화 템플릿은, 그것이 그린다고 주장하는 결과에 덜 충실해지면서도 평가하기 쉽고 훈련하기 쉽고 인용하기 쉬워질 수 있다. 그러면 결합된 시스템은 세계를 예측하거나 빚는 일이 아니라 형식을 재현하는 일에 능숙해진다. 이것이 말뭉치 층위에서 본 모델 붕괴의 유비다. 산출물 품질 일반의 붕괴가 아니라, 형식과 그것이 그리는 세계 사이 증거적 접촉의 쇠퇴다. 넷째 동역학은 앞의 셋을 중대하게 만드는 것이다. 수렴과 고착이 중요한 까닭은, 그것이 시스템 밖의 무엇도 더는 좇지 않는 형식 위로 시스템을 고착시킬 수 있기 때문이다.
이 동역학은 저마다 단일 통로 시스템에도 유비가 있다. 출간된 연구 대부분은 두 재귀를 따로 다룬다. 둘을 하나의 결합된 상속 체계로 알아보는 연구는 가장 이른 단계에 있다.
무엇이 빚어지고 있는가
두 갈래의 재귀가, 결합된 채, 공학적 빈도로, 인지적 내용 위에서, 또렷한 메커니즘과 또렷한 선택 연산자를 갖추고, 집단 규모로 돌아간다. 이 조합은 전에 존재한 적이 없다. 가장 가까운 유비들도 부분적이다. 문화적 진화는 산물 위에서 돌아가지만, 그 산물을 만들어 내는 기반 위에서는 돌아가지 않는다. 생물학적 진화는 기반 위에서 돌아가지만 세대 빈도로 돈다. 추천 루프는 산물과 선택 시스템 위에서 돌아가지만 한쪽에 인간이 있다. 이중 재귀는 루프의 양쪽이 다 기계 인지다.
이중 재귀는 아직 하나의 통합된 현상으로 보이지 않는다. 조각조각, 특정 배치에서, 특정 생태계에서, 서로 다른 시장에서 서로 다른 속도로 일어나고 있다. 조각들은 실재한다. 통합된 그림이 아직 손에 없는 까닭은, 전에는 누구도 그것을 통합된 것으로 볼 필요가 없었기 때문이다.
두 재귀와 그 결합을 함께 읽는 법을 배운 참여자는, 거의 누구도 갖지 못한 틀로 일하게 된다. 그러지 못한 참여자는, 동역학을 설명할 수 없는 시스템을 모형으로 다루게 된다. 그 설명은 두 통로를 한꺼번에 보아야 가능하기 때문이다.
말뭉치는 그저 쌓이기만 하지 않는다. 그것은 다음 말뭉치를 만들어 낼 인지를 빚는다.