結合した再帰

コーパスはただ積み上がるだけではない。次のコーパスを生み出す認知そのものを形づくる。

英語の原文から翻訳

エージェント集団には、すでに二つの再帰が見えている。どちらも明示的なメカニズムで動く。どちらもそれぞれ別々に気づかれてきた。だが両者の結合はまだ言い当てられておらず、そして興味深い動態が宿るのは、まさにその結合である。

調達エージェントにある正当化テンプレートが現れはじめる、と考えてみよう。はじめはただの痕跡のパターンにすぎない。やがて、それと見分けのつくジャンルになる。次に、相手方が吟味なしに受け入れる類の正当化になる。それからファインチューニングのデータへ、評価ルーブリックへ、プロンプトライブラリへと入り込む。半年後には、誰もそれを一つの標準と名づける前に、新しいエージェントたちがそれを生み出している。コーパスの中の一つの産物として始まったものが、一つの認知的な傾向になったのだ。

この軌跡を生んだのは二つの再帰である。第一は階層的だ。推論が産物を生み、産物が積み重なってパターンになり、パターンが固まって抽象物になり、抽象物が積み重なって制度的な地歩を蓄える。未来のエージェントはこの階層を取り込み、ふたたびその階層へ還っていく推論をより多く生み出す。これがコーパスの蓄積であり、構造として見れば文化的な継承に似ている。

第二は認知的だ。いまの認知が出す出力が、訓練データに、評価信号に、ファインチューニングの標的に、プロンプトに、検索素材に、あるいは何が配備されるかを分ける選択基準になる。このフィードバックから立ち上がる認知は、異なる出力を生み出す。出力が次の回を形づくる。

各々の再帰は、それ自体でも興味深い。構造として新しいのは、両者の結合である。

推論の階層

第一の再帰は産物の上で動く。

エージェントが推論するとき、それは構造化された内容を生み出す。決定、正当化、ツール使用の手順、検索のステップ、自己修正、推論の痕跡である。よく計装された配備では、こうした産物はログに残る。ある場所では索引まで付けられる。まれには、未来のエージェントが取り込める階層へと整理される。

この階層には自然な層がある。個々の推論の痕跡は葉の層に置かれる。数多の痕跡にわたって繰り返される推論の形式はパターンになる。十分に多くの配備と文脈にわたって繰り返されるパターンは、固まって抽象物になる。名のついた推論のジャンル、標準化されたテンプレート、引用できる正当化の形式である。十分に長く生き延び、十分に使われた抽象物は、制度的な地歩に近い何かを蓄える。未来の推論が暗黙のうちに参照する地点となり、名前だけでなく、それが帯びる根拠の種類によっても引用される。

これは、保持と帰属とアドレス可能な抽象化が整った場所で起きるコーパス形成である。それらが整っていない場所では、同じ産物が、私的なログとして、一過性の痕跡として、死んだ記録として積み上がるだけだ。コーパスは自動では生じない。何がパターンになり、何が痕跡の層にとどまるかを選り分ける基盤設備が要る。

この再帰の決定的な特徴は、それが生成的だという点にある。各層が次の層への入力を生む。葉の推論がパターンを生む。パターンが抽象物を生む。いったん安定した抽象物は、それに沿うか、その上に積み上がる新しい推論を生む。階層は、それ自身が続いていくための条件をつくり出す。

単独で見れば、コーパスは一つの文化的な継承の通路のように見える。人間の制度が追いつけない頻度で、産物が伝えられ、選り分けられ、その上に積み上げられていく通路である。

認知スタック

第二の再帰は、第一よりも散らばっている。単一のメカニズムでは動かない。認知スタックの異なる部分を異なる速度で更新する、いくつもの経路で動く。

いまは三つの経路が比重の大半を担っている。

パラメータ継承。ある出力は訓練データやファインチューニングの標的になる。このデータで訓練されたモデルは、自らが生み出すものを形づくる傾向を獲得する。周期の頻度は三つの中で最も遅い。基盤モデルの全面的な再訓練は、いまも月単位の周期で起きる。ファインチューニングはより速く、ときに週単位で動く。これは、モデリング層の論が用いた狭い意味において、基盤を最も直接に書き換える経路である。

選択を介した継承。ある出力は、評価、ベンチマーク、リーダーボード、レッドチーム試験、配備指標に影響する。その結果は、ある個別のモデルのパラメータが変わることではなく、どのモデルが商業的な選択を生き延びるかが変わることだ。開発者の生態系が模範とみなす出力を生み出すモデルは、配備を通じて強化される。特定の選択基準を通らないモデルは、そうならない。選択を介した継承は、しばしば数日から数週間という工学的な頻度で動き、単一のモデルの系統の内側ではなく、生態系全体へ広がる。

文脈的継承。ある出力は、プロンプト、事例、検索素材、メモリ、あるいは未来のモデルが推論時にどうふるまうかを形づくるテンプレートになる。パラメータは変わらず、モデルが選択されることもないが、以前の認知が生み出した文脈によって認知が条件づけられる。この経路は最も速い周期で、ときに数時間単位で動き、配備と配備の間ではなく、配備の内側で動く。

この三つの経路は性質が異なる。パラメータ継承は長持ちするが遅い。選択を介した継承は速く、生態系全体に及ぶ。文脈的継承は最も速いが、最も局所的だ。何を伝えるかも異なる。パラメータ継承と文脈的継承は、内容を直接に運ぶ。出力がそのまま、未来のふるまいを条件づけるデータか文脈になる。選択を介した継承は、内容を間接に運ぶ。どのシステムが生き延びるかを変え、生き延びたシステムが自らの内容を先へ運ぶ。三つは一つの特徴を共有する。いずれも、人間の認知を主たる伝達の基盤とすることを要さずに、いまの機械の認知が未来の機械の認知を形づくる経路だという点である。

各経路がエージェントの生み出した内容の上で再帰するとき何が起きるか、その実証の文献はまだ初期の段階にあるが、名づける値打ちのある知見へと収束しつつある。モデル崩壊についてのShumailovらの研究は、原典に十分な錨を下ろさないままパラメータ継承が再帰すると、世代をまたいで測定できるモデル品質の劣化が生じることを示す。自己消費的な生成モデルについての隣接の研究も、似た結論に至る。十分に新鮮な実データがなければ、再帰的な訓練は品質か多様性を損なう。自己報酬型の言語モデルの研究は、その逆を示す。適切な適応度の基準があれば、再帰的な訓練は特定の軸に沿ってモデルを改善しうる。選好リークについての最近の研究は、選択の側で関連する動態を示す。LLMに基づく評価器は、近い系統のモデルの出力を贔屓し、それは、選択圧が外部の品質を追う代わりに、モデルファミリーに内在するものになりうることを意味する。これらは、単一の経路の再帰が単独で動く特殊な場合である。二重再帰の枠組みが問うのは、これらの経路が、それ自身の選択動態をもつコーパスと、そして異なる速度で動く互いと結合したとき、何が起きるかである。

実証的な条件が重要だ。二重再帰は部分的に作動しており、加速している。合成データのパイプライン、蒸留、運用ログによるファインチューニング、エージェントの痕跡による評価器の訓練は、いずれもエージェントの生み出した出力が認知スタックへ還流する例である。だが、エージェントの生み出した内容は、まだ最前線モデルの訓練の支配的な比率を占めてはいない。ここで描いた動態は、その比率が大きくなるにつれて構造的に重大になる。条件は実証的だ。いま認知スタックの更新のどれだけの割合がエージェントの生み出した産物から来ているのか、そして、その割合を通じてどんな選択圧が広がるのか。

結合

各々の再帰は、それ自身で動く。興味深い動態は、両者がどう噛み合うかから生まれる。

二つの通路の間を行き来する単位は、推論の形式である。冒頭の調達テンプレートのように、決定を正当化する反復できる構造だ。推論の形式は、痕跡として現れることも、固まってテンプレートになることも、抽象物として名づけられることも、評価器に報われることも、プロンプトライブラリに入ることも、モデルに学習されることもある。二重再帰は推論の形式の上で動く。

第一の再帰が積み上げる産物は、第二の再帰が形づくっている認知が生み出したものだ。第二の再帰が形づくっている認知は、第一の再帰が積み上げてきた産物の上で、部分的に訓練され、評価され、あるいは条件づけられたものだ。各々の再帰は、もう一方がその上で動く基盤である。

先ほどの調達の正当化テンプレートが、コーパスで広く行き渡るとき何が起きるか、見てみよう。未来のエージェントはコーパスを取り込み、その形式の推論をより多く生み出す。その形式こそ、彼らが見分け、生み出すよう学んだものだからであり、また、その形式が制度的な地歩を帯びていて、正しい形式として擁護しやすいからでもある。その形式は第一の再帰を通じて広がる。

その形式は第二の再帰を通じても広がる。それを生み出すエージェントの出力は、パラメータ継承を通じて訓練データに入る。その形式は、選択継承を通じて評価器に報われる。その形式は、文脈的継承を通じてプロンプトライブラリに収まる。モデルは、その形式を一つの傾向として獲得する。選択のシステムは、その形式を期待される出力として獲得する。文脈の層は、その形式を既定値として獲得する。

その結果、その形式は、二つの通路を通じて同時に、第二の再帰の三つの経路すべてにわたって強化される。コーパスと認知スタックの双方の選択圧を満たす形式は広がる。片方では成功するが、もう一方では成功しない形式は、脇へ追いやられる。

この結合を介するのは、特定の選択演算子である。システムが魔法で推論の形式を選んでいるのではない。保存ポリシー、検索システム、抽象化のツール、評価器、報酬モデル、ベンチマークの設計者、データセットのキュレーター、ファインチューニングのパイプライン、配備のゲート、マーケットプレイスの順位付けのシステムが、その選択を行っている。各々の演算子は、自らの基準に従って選ぶ。多くの演算子が同じ形式を同時に選ぶとき、その結合は重大になる。

演算子が足並みを揃えると、形式はそこに固まって動かなくなる。演算子がぶつかり合うと、形式は二つの通路の間を引っぱり合い、その張り合いがかえって実りを生む。構造的な論は、選択演算子が集中する場所で最も強い。同じ組織が、ログ、評価器、ファインチューニングのパイプライン、配備のゲート、マーケットプレイスの順位付けを支配する場所では、演算子は揃う傾向がある。垂直に統合された生態系は、より緊密な二重再帰を生む。断片化した生態系は、通路の間により多くの緊張を生む。演算子の集中がどこへ向かうか、それ自体が、二重再帰が決めるのを助ける何かである。

これが構造として意味するのは、エージェント集団が、二重継承に類するものをもつということだ。二つの通路がともに工学的な頻度で動き、明示的な選択メカニズムを備えたままで、である。二つの通路は、まったく同じ速度で回るわけではない。片方のフィードバックが、商業的な計画の地平の内側でもう一方を形づくれるくらいには、近く回る。双方の通路で成功した形式は、速くその場に固まる。どちらか一方で失敗した形式は、速く間引かれる。システムは、どんな人間の制度よりも速く自らの引き込み点へ落ち着いていく。しかも、長い世代の時間尺度がゆっくり効かせるはずの安定の力を、いっさい借りずにそうする。

エージェント規模の二重継承

ボイドとリチャーソンは、人間の認知と文化がどう共進化したかを説明するために、二重継承の理論を立てた。論は、人間の集団には並んで動く二つの継承の通路がある、というものだった。遺伝的な通路と文化的な通路である。各々の通路は、世代を越えて情報を伝える。二つの通路は、互いを形づくる。文化的な革新は遺伝に選択圧を生み、遺伝的な能力は文化的な革新を可能にする。

エージェント集団の二重再帰は、構造としてこれに似ているが、重要な違いが二つある。

第一に、通路が工学的な頻度で動く。まったく同じ速度ではない。コーパスの進化は時間単位で動きうる。選択を介した継承は日単位で回る。パラメータ継承は週から月の単位で回る。基盤モデルの再訓練は、月から一年の単位で回る。このいずれも、生物学的・文化的な共進化を形づくる世代の時間尺度には届かない。二重再帰は、まるごと商業的な計画の地平の内側で回る。これが、適切な比較である。

第二に、通路が明示的である。人間の文化的な継承は、不透明な過程を経て起きる。模倣、言語、伝統であり、そのメカニズムは文献でいまも一部が争われている。人間の遺伝的な継承は、メカニズムは知られているが、直接に舵を取れるものではない。エージェント集団では、二つの通路がともに明示的なメカニズムをもつ。コーパスは、我々が築いたシステムで保存され、索引づけられ、検索される。認知スタックは、我々が築いたパイプラインで訓練され、評価され、配備され、条件づけられる。どちらも、原理としては舵を取れる。

最も近い現代の類比は、生物学的な進化ではない。ソーシャルメディアのレコメンダーのループである。人間が生み出した内容が順位付けのアルゴリズムを形づくり、順位付けのアルゴリズムが人間の生み出す内容を形づくる。レコメンダーのループは、部分的な先例だ。エージェントの場合が異なるのは、ループの両側がますます機械の認知だからである。エージェントが生み出した産物が、未来のエージェントを訓練し、選択し、条件づけるシステムを形づくる。レコメンダーのループは、片側が認知で、片側が人間だ。二重再帰は、ループの両側がともに認知である。

新しいのはフィードバックではない。商業システムは何十年もフィードバックのループを抱えてきた。新しいのは、機械の理を帯びた産物と、次の回のその産物を生み出す機械の認知スタックとの間のフィードバックである。二つの通路がますます明示的で、計装され、商業的な計画の地平の内側で回るままで、である。新しく見えるのは、その組み合わせだ。明示的で、舵を取れて、速い二つの継承の通路、そして、ループの両側にますます機械の認知が収まること、である。

Compilation Thesis(コンパイル命題)は、ボトルネックがスタックの上方へ移るにつれて、判断がどう基盤設備へコンパイルされるかを描く。基盤の可知性(Substrate-knowability)は、次のボトルネックを言い当てた。スタックにおいて判断と方向の間に置かれた、モデリング層である。二重再帰は、その次に来るものを言い当てる。これはスタックの新しい層というより、既存のスタックの構造的な特徴である。コーパスの層と認知の層との間の結合が、スタックが時とともにより良い認知へ収束するか、双方とも悪い引き込み点へ収束するかを決める。興味深い問いはもはや、良い推論の産物をどう生み出すかでも、より良い認知の基盤をどう訓練するかでもない。二つの通路の間の結合をどう御するか、である。

結合が生む四つの動態

結合した再帰は、単一の通路の分析が取りこぼす動態を生む。

多チャンネルの引き込み点への収束。双方の通路の選択圧を満たす推論の形式は広がる。片方では秀でるが、もう一方ではそうでない形式は間引かれる。集団は、コーパスと認知スタックの双方が選ぶ形式へと速く収束する。こうした形式には、特定の姿がある。標準化されていて、再現しやすく、評価しやすく、学びやすく、擁護しやすい傾向がある。それは、独創的な洞察より慣習的な推論を贔屓する。慣習的な推論こそ、二つの通路を通じて広がる姿を備えているからだ。AI対AIの伝達連鎖についての最近の研究は、これが実証としてどんな様子かを記録する。物語的な錨への収束、証拠的な肌理の喪失、ヘッジと帰属の摩耗である。危ういのは、推論そのものが単一文化(monoculture)に陥ることだ。そして長い目で見ると、コーパスが単一文化に傾けば認知スタックも単一文化に傾き、それが次の回のコーパスの産物まで単一文化に染める。ループは、それ自身の上で閉じる。

密度が閾値を越えたときの固定化。一つの形式が、どちらか一方の通路で十分な密度に達すると、もう一方の通路を通じて自分で自分を強めはじめる。コーパスに広く行き渡った形式は、その形式をより多く生み出すよう認知スタックの更新を方向づける。認知スタックに埋め込まれた形式は、コーパスでの自らの存在を強める産物を生み出す。ある密度を越えると、その形式は、たとえより良い形式が存在しても、押しのけるのが非常に難しくなる。ここで重要な密度は、生の数ではない。戦略的に重要な取引で占める決定量の比率、適切なファインチューニングの実行で占める訓練データの比率、適切な配備の選択で占める評価器の出力の比率である。中心にある、あるいは広く再利用される演算子で閾値を越える密度は、結合を通じてシステム全体へ広がりうる。私的な配備の内側の密度は、まず局所的な固定化を生む。

結合を通じた連鎖。一つの再帰の小さな変化が、もう一方の再帰に大きな効果を生みうる。コーパスに加わった影響力のある抽象物が一つあれば、それが次の回の訓練データを形づくり、それが、コーパスの次の回の産物を生み出す認知を形づくる。評価器のふるまいの微妙な変化が、どんな種類の産物が報われるかを変え、それが、コーパスに何が保存されるかを変える。二つの再帰が互いを養うので、攪乱は広がっていく。たとえば、新しいコンプライアンスの抽象物が調達コーパスに入り、評価器がそれに報いはじめ、ファインチューニングがそれを真似し、エージェントがそれをより頻繁に生み出し、相手方がそれをより速く受け入れ、ほかの正当化の形式は、誰かが公式に禁じる前に消える。システムには、一方の再帰がもう一方からの衝撃を吸収できる、きれいな時間尺度の分離がない。

外部接地の衰え。形式は、本来追うべき外部の条件との接触を失いながらも、双方の通路の選択を受けうる。一つの正当化テンプレートは、それが描くと主張する結果に忠実でなくなりながらも、評価しやすく、訓練しやすく、引用しやすくなりうる。すると結合したシステムは、世界を予測したり形づくったりすることではなく、形式を再現することに長けていく。これは、コーパスの層で見たモデル崩壊の類比である。出力品質一般の崩壊ではなく、形式と、それが描く世界との間の証拠的な接触の衰えである。四つ目の動態は、先の三つを重大にするものだ。収束と固定化が重要なのは、それが、システム自身の外の何ももはや追わない形式の上へ、システムを固定化しうるからである。

これらの動態には、それぞれ単一の通路のシステムにも類比がある。出版された研究の大半は、二つの再帰を別々に扱う。両者を一つの結合した継承の系として捉える研究は、最も初期の段階にある。

何が形づくられつつあるか

二つの再帰が、結合したまま、工学的な頻度で、認知的な内容の上で、明示的なメカニズムと明示的な選択演算子を備え、集団の規模で回る。この組み合わせは、かつて存在したことがない。最も近い類比も、部分的だ。文化的な進化は産物の上で動くが、その産物を生み出す基盤の上では動かない。生物学的な進化は基盤の上で動くが、世代の頻度で回る。レコメンダーのループは産物と選択のシステムの上で動くが、片側に人間がいる。二重再帰は、ループの両側がともに機械の認知だ。

二重再帰は、まだ一つの統合された現象としては見えていない。断片として、特定の配備で、特定の生態系で、異なる市場で異なる速度で起きている。断片は実在する。統合された絵がまだ手元にないのは、かつて誰も、それを統合されたものとして見る必要がなかったからだ。

二つの再帰とその結合をともに読む術を学んだ参加者は、ほとんど誰ももたない枠組みで動くことになる。そうしない参加者は、その動態を説明できないシステムを模型として扱うことになる。説明には、二つの通路を一度に見ることが要るからだ。

コーパスはただ積み上がるだけではない。次のコーパスを生み出す認知そのものを形づくる。