なぜコードはコンパイルされ、法はされないのか

次のAIの転換を分けるのは、最大のモデルを訓練する者ではなく、検証器を築く者である。

英語の原文から翻訳

検証可能な報酬による強化学習の時代に入って二年、AIの能力地図に奇妙なことが起きた。コードモデルは、2023年には信じがたく思えたであろう水準で、動くコードを書く。数学モデルは、一年前まで分野を退けていたオリンピック問題を解く。だが法的推論は、これに比肩する動きを見せていない。臨床判断もそうだ。文芸の執筆もそうだ。速くコンパイルされる領域と、停滞した領域とのあいだの隔たりは、縮まるどころか広がった。

おなじみの説明はいくつも出回っている。能力ギャップの話は、モデルがいずれ十分に賢くなり、あらゆる領域がコンパイルされると言う。データギャップの話は、遅い領域にもっと訓練データが要るだけだと言う。足場ギャップの話は、より優れたエージェントと検索が、ベースモデル単体では開けないものを解き放つと言う。どれも部分的には正しく、どれも実際に起きていることを取り逃している。

この隔たりは構造的なものだ。それは、領域が持つか持たないかのどちらかである一つの性質によって定まる。すなわち、その領域の内側で検証が生成より構造的に安いかどうかである。その非対称があるところでは訓練のループが閉じ、データは計算とともにスケールし、コンパイルが加速する。非対称が成り立たないところでは、データは人間の労力に頭打ちにされ、いかに能力が伸びても残りの地面は埋まらない。これがこの枠組みの予測する強みだ。ある領域はコンパイルされ、ある領域は構造的にされない。そして両者を分けるのはAIがどれほど難しいかではない。その領域が、スケールを成立させる非対称を供給するかどうかである。

このエッセイはその主張を展開する。コンパイル命題(Compilation Thesis)を、コンパイルの下にある機構を特定することで拡張し、そして分野が過小評価してきた具体的な研究プログラムで締めくくる。より優れたベースモデルではなく、検証器の構築である。

RLVRが実際に突いているもの

ここで借りるに値する、計算機科学からの構造的な観察がある。P対NPはふつう、どの問題が扱えるかという問いとして語られるが、その下にある洞察は非対称についてのものだ。ある種の問題では、答えを見つけるのは難しいのに、一つを確かめるのは易しい。提案された数独の解を渡されれば、数秒で検証できる。解をゼロから見つけるのは、はるかに難しい。生成の費用と検証の費用とのあいだのこの非対称こそが、確かめるべき候補が手元にあるとき、ひとまとまりの探索問題を扱えるものにする。

検証可能な報酬による強化学習は、この洞察の応用形である。訓練のループは候補となる解を生成し、それらを安い検証器に通し、生き残ったものの上で訓練する。ループの効率は、P対NPの枠組みが気にかけるまさにその比、すなわち生成費用を検証費用で割った値によって定まる。コードと数学は比の高い領域だ。Pytestはミリ秒しか要さないが、正しいコードを書くには本物の認知労働がかかる。Leanの型検査器は数秒で走るが、証明を見つけるには数学者の一生がかかりうる。非対称は途方もなく大きく、それがこれらの領域を真っ先にコンパイルさせたものだ。易しいからではない。検証と生成の隔たりが、訓練のループをスケールさせるからである。

このエッセイの残りが答える問いは、その隔たりが存在するために領域に何が要るのか、である。

三つの前提条件

三つの性質が揃って、領域がその非対称を持つかどうかを決める。コードと数学は三つともを持つ。遅くコンパイルされる領域は、それぞれ別の部分集合で躓く。

**入力の完全性。**検証器が確かめている問題は、完全に規定されていなければならない。数学の定理の言明は完全だ。証明されるべき主張は書き下されており、証明されたものはそれに一致するか、しないかのどちらかである。関数のシグネチャにテストスイートを加えたものは完全だ。関数の入力と期待される出力は固定されている。依頼人の法的状況は完全ではない。事件に関わる事実は、証拠開示や、証言録取や、相手方の提出書面のなかで浮かび上がってくる。患者の症状の現れ方もまた完全ではない。症状は移ろい、併存疾患が絡み合い、真の診断はしばしば医師がまだ考えてもいない何かである。入力の完全性なしには、検証器には照らし合わせるべき、よく定義されたものが何もない。「この出力はその入力にとって正しい」と言えないのは、入力がいまだ動いているからだ。

**合意による検証可能性。**唯一の正答が存在しなければならない。あるいは、適格な評価者が一致できるほど、それに近いものが。証明は型検査を通るか、通らないかだ。テストは通るか、落ちるかだ。法的意見書の正しさは、原理上は合意によって検証可能である。十分に通じた弁護士が読めば、それが役目を果たしているかどうかで一致できる、という意味において。たとえその検証が実際には高くつくとしても、だ。法的事例での躓きは入力の完全性であって、合意ではない。短編小説の質は、どの水準でも合意によっては検証できない。読み手によって好みは違う。伝統によって基準は違う。文芸の判断は収束しておらず、評価者の時間が無限で注意が完璧であっても、照らし合わせるべき唯一の真実は存在しない。

**ステップ内で終わる検証可能性。**検証器は、次の一歩に間に合うほど速く信号を返さねばならない。Pytestはミリ秒で返す。Leanは数秒で返す。信号は、訓練のループがまだ回っているあいだに届く。裁判の帰結は数年がかりで返り、しかもそのときには、決定と評決のあいだに起きたあらゆることに交絡している。患者の真の予後は数十年わからないこともあり、その途上の介入が、帰結の意味そのものを変えてしまう。ステップ内で終わる信号なしには、過去データの上で訓練はできても、コンパイルを実際に加速させる対話的なループは閉じられない。

コードと数学は三つの性質をすべて持つ。法的推論は第一を欠く。医療診断は第一を欠き、第三を部分的に欠く。創作の執筆は第二と第三を欠く。三つの前提条件、異なる躓きの型、異なるコンパイルの軌道。このパターンは、能力ギャップやデータギャップの話には説明できないことを説明する。なぜ、同等の投資水準にあってさえ、ある領域は速くコンパイルされ、ある領域は停滞するのか。

「法的推論」や「医療診断」といった言い回しは、内部が不均質な仕事を覆う粗い括りである。法律調査や、文書に閉じた精査は、裁判戦略よりも非対称に近いところに位置する。医用画像や、薬剤の用量調整は、開かれた臨床推論よりも近いところに位置する。この領域単位の主張は、各領域の威信の核についてのものであって、その内側のあらゆる作業についてではない。エッセイの後半での分解は、まさにこの不均質さを軸にする。

これが実際にどう見えるか

三つの前提条件がすべて成り立つとき、目を見張ることが可能になる。訓練データを合成によって生成できるのだ。候補となる問題を提案し、検証器に解をふるい分けさせ、検証された対を残す。データセットは人間の労力ではなく計算とともに育つ。だからこそPRM800Kは、75,000本の数学の解にわたって800,000のステップ単位の正誤ラベルを持つ。だからこそ、検証済みのテストカバレッジを備えたコードのデータセットは、事実上、際限がない。検証器は訓練中の信号であるにとどまらない。訓練集合そのものがスケールする、その機構である。

専門領域や創作領域における専門家判断のデータセットは、これをしない。最も引用される創作執筆の評価ベンチマーク、LLM評価者が専門の書き手の代わりを務められるかを問うChakrabartyの2024年CHI論文は、14の二値の専門家テストにわたって評価された48の物語を用いる。これは672ほどのラベル付き判断にあたり、論文の目玉となる発見は、LLM評価者が専門家の評価とほぼゼロの相関しか示さなかったことである。臨床推論のベンチマークは、たいてい数千件の低い桁にとどまる。法的推論のベンチマークも似たようなものだ。コードと数学の訓練規模と、専門家判断の訓練規模とのあいだの隔たりは、固定された倍率ではない。それがより深い論点だ。一方の曲線は計算とともにスケールする。もう一方は人間の労力とともにスケールする。意味のある時間幅をとれば、計算でスケールする曲線は、人間の労力の曲線をいくらでも引き離す。隔たりは一つの数ではない。果てしなく広がりつづける乖離である。

専門領域に特化した言語モデルを築こうとした者は誰もがこの壁に突き当たり、それはいつも、同じ壁が違う形をとったものだ。はじめはツールの問題だと、あるいはラベリング予算の問題だと、あるいは労働市場の問題だと思い込む。半年をかけて、そのどれかとして扱う。やがて気づくのは、領域がデータを出し惜しんでいるのではない、ということだ。出し惜しまれているのは非対称であり、いくら収集に労力を注いでも、構造的に集められるものは変わらない。

これはもっと根本的な何かを指している。スケールする訓練のループを閉じるのに要る検証器は、補助的な道具ではない。コードと数学では、検証器は解とは別の人工物だ。Pytestはコードを書く必要がない。Leanは証明を見つける必要がない。それらは、自ら仕事をこなせるわけではないのに仕事を確かめられる、独立したシステムである。法的推論では、訓練のループを閉じるのに必要な水準で意見書の質を信頼できる形で検証する検証器は、その意見書を書くのと同じ判断を要するだろう。意見書を、上級弁護士が読むように読まずに質を確かめられる、より安く独立したシステムなど存在しない。

部分的な評価器はどこにでも存在し、いくつかは役に立つ。主張はそれらについてのものではない。主張は、領域が実際に気にかける判断の水準で、スケールする訓練のループを閉じるのに要る検証器についてのものだ。その水準では、それらの領域では、より安く独立した検証器は専門家の判断そのものへと溶けて消え、RLVRが突く非対称もそれとともに消える。

検証器が、その領域なのである。

非対称を築く三つの道

コンパイルの速さが検証と生成の非対称によって定まるなら、領域AIにとって荷を負う研究プログラムは、いま分野が優先しているものではない。主には、より優れたベースモデルではない。より優れたエージェントや検索ではない。検証器の構築である。これから挙げる三つの工学的な手は、非対称がひとりでには存在しないところに、それを築く異なるやり方だ。

**分解。**これは検証器の乏しい課題を、検証器の豊かな下位課題へと割る手である。法的な仕事が、このパターンを最も明瞭に示す。誰もが口にする法律実務の部分、すなわち起草と戦略は、三つの前提条件を持つ部分ではない。分野が下働きとして扱う部分こそが、それらをすべて持つ。証拠開示、つまり事件に関係する文書を見つけるために数百万の文書をより分ける作業は、入力の完全性(文書は固定されている)、合意による検証可能性(ある文書が関係するかどうかで適格な弁護士はおおむね一致する)、ステップ内で終わる検証可能性(上級弁護士は標本を数分で確かめられる)を持つ。証拠開示は、検証器の乏しい領域の内側にある、検証器の豊かな下位課題なのだ。この枠組みが立てる予測は直観に反しており、たいていの読者が思い描く序列を逆さにすると私は思う。法的な仕事のうち華やかでない部分は、威信ある部分よりもかなり速くコンパイルされるだろう。シニアアソシエイト級以上の意見書の起草は、いまの枠組みのうちでは停滞したままになる。証拠開示の仕事が、専門家の人間がこなすことにかなり迫っていく、その傍らで。これが一般のパターンだ。分解は、外から見れば一様に難しく映る領域の内側に、コンパイル可能な島々を見つけ出す。

三つの手のうち、分解が最も広く頼りになる。代理指標の構築は、自然に生じる相関した信号に依存し、それは領域次第である。合成された正解は、訓練信号が一般化できるほど豊かであることに依存し、それは規模が小さいところでの、規模が全てを解くという賭けだ。分解が依存するのは、領域が検証器の豊かな下位構造を含んでいることだけであり、大きな専門領域のほとんどはそれを含む。あとの二つの手は、効くところで効く。分解は、その第一の手を試みられるところなら、ほとんどどこでも効く。

**代理指標の構築。**これは、計算の高くつく真理と相関する、計算の安い信号を築く手である。単体テストが典型例だ。テストスイートは、プログラムが完全な意味論において正しいことを検証しはしない。それが検証するのは、有限の事例集合の上でプログラムが期待された出力を生むことだ。テスト通過と正しさの相関は、開発を導けるほどには強く、しばしば破られるほどには弱く、ソフトウェア産業全体の品質基盤は、この二つの事実のあいだの隙間に築かれている。Kent Beckが1990年代後半にテスト駆動開発を定式化したとき、彼はエンジニアがすでに暗黙に行っていた何かに名を与えていた。この規律が荷を負うものになったのは、テストがバグを捕まえるからではない。捕まえはするが、そうではなく、テストが、どこにも自然には存在しなかった安い検証器を作り出すからである。これがその手の、産業化された姿だ。MMLUやHumanEvalのようなベンチマークは第二の形の代理指標であり、不完全で、攻略可能で、まさに安いがゆえに有用だ。その攻略可能性そのものが、多くを語る。グッドハートの法則は、構築からして代理指標に当てはまる。代理指標が目標になると、真の信号との相関は劣化する。工学的な規律とは、攻略できない代理指標を見つけることではない。しばらく最適化の標的にされても保つほど、真理との相関が強い代理指標を見つけることである。

**合成された正解。**これは検証器のモデルを専門家データの上で訓練し、訓練されたそのモデルを検証器として使う手である。RLHFにおける報酬モデルが典型例だ。訓練のあいだにモデルが生むあらゆる出力を、人間に安く評価させることはできない。だから人間の選好の有限な集合の上で報酬モデルを訓練し、その報酬モデルを代わりの検証器として使う。報酬モデルは、真理とは別の何かを測るのではない。それは真理そのもののモデルであり、そこが代理指標の構築との違いだ。代理指標は、たまたま真理と相関する別の信号である。合成された正解は、真理そのものを訓練によって近似したものだ。その質は、訓練信号が近似される当のものをどれだけよく捉えたかに丸ごと依存しており、Chakrabartyの2024年の結果は、ここでの戒めの物語である。この研究は、創作の散文を評価するとき、LLM評価者が専門の書き手とほぼゼロの相関しか示さないことを示した。合成された正解が効くのは、訓練された検証器が一般化できるほど元データが豊かなときに限られる。専門家の信号が疎すぎる、あるいは争われすぎているとき、訓練された検証器は趣味ではなく雑音を捉え、自分とは合意しながら、領域が実際に気にかける専門家とは食い違う、流暢な検証器ができあがる。

最前線の賭けと、それが予測すること

この枠組みに反する最前線の賭けは、極限ではそのどれも問題にならない、というものだ。十分に有能なベースモデルは、と論は言う、自らの検証器になる。推論時に自らの出力を十分な信頼性で評価することによってか、人間が集めたデータを規模で凌ぐ合成された専門家判断データを生成することによってか、そのどちらかで。この見方では、非対称はいまのモデル能力についての一時的な事実であり、ベースモデルの十分な進歩が、枠組みが欠けていると言う検証器を生み出す。

枠組みの応答は、これが二つの能力を混同している、というものだ。生成の能力と検証の能力は、同じモデルのなかにあってさえ、同じものではない。これは、囲碁とチェスを解いた自己対戦とは種類の異なる話だ。それらのシステムがスケールしたのは、ゲームの規則がシミュレートされたあらゆる帰結に、欠陥なく本質的に無料の検証器を与えたからであり、その検証器は、その上に構築された何かではなく、領域そのものの一部だったからだ。専門領域や創作領域には、そうした内在的な検証器は存在しない。いかなる検証器も工学されねばならず、その工学こそが難しい部分である。人間が生んだものの上で訓練されたベースモデルは、その訓練分布から無料の検証器を受け継ぎはしない。その検証能力の天井は、訓練のあいだに吸い込んだ判断の天井である。非対称が専門家判断の水準で成り立たない領域では、その専門家判断は訓練分布に広く表れていない。専門家の信号は薄く、争われ、遅れ、制度に縛られており、出力を真似る能力は、それを検証する能力へと移らない。Chakrabartyの2024年の研究が、既にある証拠だ。その研究のLLM評価者は、いまのモデルが生む範囲のなかの散文を評価していたのであり、専門家の仕事のように見える散文を書く能力は、それを専門家の水準で判断する能力へと転じなかった。ここでの主張は、将来のモデルが強い評価者に決してなれない、というものではない。主張は、評価者が要する専門家の信号が疎で、遅く、争われている領域では、生成の規模だけからその能力を無料で得ることはない、というものだ。自己検証するベースモデルの仮説は、規模が全てを解くという賭けの最も強い形であり、枠組みは、それがどこでなぜ躓くかを具体的に予測する。それは非対称が構造的に欠けた領域で躓くだろう。すなわち、枠組みがそもそも論じていた領域で。

枠組みが読者に与えるのは、すぐに使える道具だ。どんなAI研究プログラムにも、検証器を築いているのか、それとも検証器が現れると仮定しているのかを問え。どんな領域についても、非対称がどこにあるのか、三つの手のどれがそれを工学できるのかを問え。専門領域や創作領域の現行のAIの仕事の多くは、検証器が能力の伸びによって到来することに、暗に賭けている。枠組みはこれを誤った賭けだと言う。能力の伸びが助けにならないからではなく、検証器の乏しい領域でのデータセットの天井が、ベースモデルの改善とともには動かないからである。天井は、誰かが検証器を築いたときにのみ下りてくる。そして、それを築く仕事こそ、分野が過小評価してきた仕事だ。

次に何がコンパイルされるかは、検証と生成の非対称がどこに存在するか、あるいはどこで工学できるかによって決まり、それがこの層でコンパイル命題の予測することだ。分解か、代理指標か、合成された正解によって非対称を築ける領域は、コンパイルされる。三つの手がすべて躓く領域は、最も重い仕事の水準で、判断の高くつく残余を抱えつづける。AIにできることの縁を定めるのは、AIが何を考えられるかではない。誰かが手間をかけて何を検証可能にしたか、である。