ナデラのトークン資本について
AI時代の企業のための最も明快な論拠、そしてそれが一階届かずに止まるその階。
サティア・ナデラは、AI企業のテーゼの、最も明快な経営者版を示し、それをBuildの翌週、リード・ホフマンのポッドキャストで語った。いまやどの会社も、彼の言い方では、彼が山登り機械(hill-climbing machine)と呼ぶものを築かねばならない。点数をつけられる結果の一つに、その機械を向ける。自社のデータを、その機械が働く文脈として与え、人とエージェントにその中で仕事をさせ、仕事がどう成されたかの軌跡を保ち、自社が所有するパラメータをその上で訓練する。その会社ならではの働き方は、戸口から漏れ出ていく代わりに、彼が人的資本の傍らに置いてトークン資本と呼ぶ資産へと、複利のように積み上がる。私は、その機械について彼は正しいと思う。同時に私は、その機械が間違った方を向いていると思う。その機械が立ち止まる場所は、懐疑論者が止まる場所ではなく、それより一階上だ。そして、その機械がそこからもう一階を残したまま、ついに届かずに止まるその階こそ、私がこれまで気にかけてきた唯一の場所なのだ。
その機械がしていることには、彼が通りすがりに述べ、そしてその先へと建て増していく一つの記述がある。彼は、一企業の暗黙知とは、その企業が働き、判断を下し、趣味を持つ独自のやり方であり、モデルは人々が働く軌跡からその知識を引き出し、パラメータへと符号化できる、と言う。だからその機械は、一企業の暗黙知を、それが使われるのを見守ることで捉えるループであり、彼が最も止めたい漏れ、つまり、モデル企業があなたの元従業員で固める訓練環境を通って、まさにその知識が歩き出ていくことこそ、そのループが防ぐために築かれたものだ。だが、一企業の働き方を、それが働くのを見守って捉えることは、いつでも、すでに働かれた部分だけを捉える。軌跡は、その知識が後に残したものだ。それを生み出したものではない。彼がすべての企業に複利で積めと説くその資産は、まさにその理由で、企業がすでに行使した判断の記録なのだ。
彼はこの提案を述べるに値する。この主題について、経営者には稀なほど、具体が正しいからだ。山登り機械は、より良いモデルではなく、モデルを取り巻くループであり、これは私がプロンプトがどう外れるかから近づいて辿り着いた結論だ。評価が新しいIPであり、残りは機械的だ、というのは、最前線が評価の信号が尽きるまさにその場所にある、という言い方の、より鋭い版だ。そして、彼の絵の全体を最も強く擁護する言葉は、私自身が述べてきたものだ。コモディティ化していくモデルに抗して、それを取り巻く基盤が価値を捉える、つまり、配備のパターン、評価の枠組み、ベンチマークの数字を運用上の変化へと変えるフィードバックループが、そうだ、というものだ。私はまさにそれを基盤の逆転で論じ、今もそう信じている。だから、前置きとしてそれを認めておこう。基盤が価値を捉える。問いは、それが捉えるものが持続する優位なのか、であり、その答えは、捉えられた軌跡が何を含むかに、そして捉えるという行為が、それが捉える人々に何をするかに、かかっている。
ループが捉えるもの
軌跡は、下された選択の記録であり、一企業が出来ることの大半は、それが十分に集まれば取り戻せる。運用上の知識、つまりこの企業が請求をどう処理し、ロールアウトをどう段階的に進め、例外をどこへ振り分けるか、というやり方は、言葉にでき、繰り返し、きれいな軌跡を残す。そうした軌跡で訓練されたループは、それをよく捉える。これが基盤が実際に帳簿に載せる部分であり、それは現実だ。だが、ナデラが暗黙知と呼ぶものの内には、最初のものとは違う振る舞いをする、二つ目のものがある。難しい判断の値打ちは、記録された選択にあったことなど一度もない。それは、探すには大きすぎる空間で、正しい選択を手の届くところに置いた、その構造にあった。私は、この構造、つまり、外からは飛躍に見えたものを一歩の内の良い手にする、私がすでに知っていることの配置こそが、趣味が実のところ何か、つまり判断の下に置かれた生成的な核だと論じてきた。軌跡を記録し、その上で訓練して得られるのは選択であって、その選択を選べるものにした構造ではない。運用上の知識は捉える。それを生み出した核は捉えない。
その核が何の軌跡も残さない、と言えば性急すぎるし、この文章にその誇張は要らない。一人の分析者がもたらすある角度は、それが数百の事例にわたって繰り返す類のものなら、集計の中に軌跡を残し、ループはその反復を学び、それは企業が抱えたいと思うはずの現実の価値だ。何も残さない部分はそれより狭く、まさにその部分が肝心なのだ。それは、先例のない手、既知のパターンの稀な一例ではなく、新しいパターンの最初の一例である判断、企業自身の歴史が行ったことのないどこかへ届いたがゆえに当たる読みだ。その手は、いったん放たれた後にしか軌跡を生まず、一度の発火はパターンではない。何千年も研究されてきた一つのゲームで最強の打ち手たちを破った機械は、人間ならば一万に一度しか打たないような手に届いたが、それに届いたのは、その手が、規則がすでに採点する空間の内で稀だったからであって、誰も測ったことのない空間で最初だったからではない。1繰り返す稀なものは、ループがいずれ学ぶ。その種の最初のものは、学べない。まだ学ぶ元がないからだ。
だから、それが捉えられない部分こそ、優位の源だった部分だ。一企業の判断を、競合のそれより価値あるものにしたのは、運用上の知識ではなかった。それは競合も自前の版を築ける。それは、先例のない判断に届く能力、つまり、ある設計が三か月先の負荷のかかり方に耐えないと、訓練すべきその失敗の軌跡がまだ存在すらしないうちに感じ取れる、設計者だった。私は、趣味の地図は、どれほど密でも、趣味がすでにある場所しか教えられないと、そして、私たちが最前線と呼び続けるものはどこか別の場所に最初にいる人だと、書いてきた。一企業のトークン資本は、まさにその地図、企業自身の軌跡から築かれた、同じ地平を持つ地図だ。それは、企業の判断がどこにいたかについては、この上なく精緻だ。その判断が初めて新しい場所にいる、その瞬間については、沈黙している。
一歩遅れる符号化器
ループはいずれ、あの機械が打ち手たちを追い越したように、自分が見守る人々を追い越さないか。追い越せるし、何がそれを分けるかは条件だ。判定者が安いところ、ある局面を無料で、しかも即座に採点できるところでは、ループは自分自身を打ち進めて、人間の分布を追い越していける。生成的な核には、そのような判定者がない。その尺度は争われ、遅れて届き、たいていは後になってようやく定まる。これこそ、本当の重みを持つ仕事の大半の記述だ。自己改善システムについての研究は、安い外部の判定者がなければ、そのようなループはある標的への模倣であり、その標的の天井を受け継ぎ、その中の人々がすでに知っていることに縛られる、とかなりはっきり述べている。2
その限界は法則ではなく偶発的で、その偶発的な版は、機械は趣味ができない、というスローガンより鋭い。それは、判定者が高くつく、ということに寄りかかっており、ある結果を検証することは、それを生み出すことよりも、しばしばはるかに安い。証明を確かめることが、それを見つけることより易しいのと同じだ。3その隔たりが保つところなら、どこでも判定者を築けるし、ループはそれを登る。そして、ここに率直に認めるべき箇所がある。その登りは、確かにそれが届く範囲を広げる。確かめられる報酬に抗して訓練されれば、以前は届かなかった手に届ける。4だが、ある尺度の内で届く範囲を広げることは、その尺度を定めることと同じではなく、ループはいつも前者しかしない。判断の構造を、機械が確かめられる基準へと分解すること、つまり私がそれがゲームのすべてだと論じてきたそれをすれば、その領域で限界は持ち上がり、ループはそこでも人々を追い越す。正直な限界は、その隔たりが保証されていないことだ。検証が安いものと、生産が安いものは、噛み合う必要のない別々の条件が定めており、ある領域には、その領域そのものを走らせること以外に、十分な判定者がない。
だから限界は領域ごとに持ち上がり、その速さを定めるものが、見るべきところだ。持ち上がりのたびに、まず拘束力を持たされた尺度が、つまり、そこから判定者を築ける前に誰かが引き受けねばならない、より良いことの定義が、要る。尺度を著す人が、機械には種類として出来ないことをしているのか、それとも、自分の文化から手渡された尺度を、ループが自分のものを移すよりほんの少し速く移しているだけなのか、私には分からないし、それを決着させられない、と以前に述べた。企業にはそれが決着する必要はない。企業に要るのは作業の順序だけで、その順序は変わらない。尺度が拘束力を持ち、次に判定者が築かれ、次にループが登る。ループは事後に追認する。それはいつも、自分の標的を作ったその引き受けより一歩後ろにいて、先に行くことで定義されるものを、後を追う者が追いつく速さなど、ない。
新しさも一つの尺度だ
ループに、新しさそのものを価値あるものとせよ、と告げることはできるが、なぜそれがその順序を逃れないのかを見ておく価値がある。新しさは、自らを定義しない。どの保管庫に対して新しいのか、誰にとって面白いのか、何が期待されていたかについての誰のモデルの下で驚きなのか。それらが答えられた瞬間、新しさはまた一つの手渡された尺度になり、ループはそれを、ほかのどれとも同じように登る。自力で漕ぎ出すシステムを築こうと最も懸命に試みてきた分野が、まさにこれを見いだした。何が面白いとされるかの観察者を、人々がすでに面白いとしてきたものから汲んで、それらのシステムに手渡さねばならなかったこと、そして、それらのシステムは観察者が固定された瞬間にそれをごまかし、外から繰り返し継ぎ足してやらねばならないこと、だ。5新しさに報いることは、基準を著すことではない。それは、手渡された基準を一段上へ移すだけで、その高い段でも、それはなお手渡されたものだった。ナデラが、あなたが、あなただけが定義できると言うあの高い趣味、良い評価の書き方を述べる途中で彼が漏らすその言葉こそ、ループが登る報酬には変えられない、まさにその部分だ。それが、その報酬が作られて出てくる元になるものだからだ。
後を追う者
最後の抗弁は、人々が働き続けるからループも学び続け、だから現在にとどまる、というものだ。確かにそうで、その現在へのとどまりは、自分の出力だけで訓練されたループが崩れるようには崩れない。本物の人々が日々、本物の軌跡を与えるからで、それこそがその種の劣化を防ぐ。6だが、現在にとどまることは追跡であり、追跡は後追いだ。ループは新しい判断を、人がそれを行使し、軌跡を残した後に学ぶ。操舵可能性への期待がそう聞こえさせかねないのとは違い、ループの中の人間が、吸収されていく途上の過渡的な存在ではない理由が、これだ。操舵可能性とは、閉じられる経路、つまり、尋ねられれば言う望みの部分と、時間をかけて選択の中で明かす部分を閉じることの、良い名だ。それは、まだ形になっていない部分、つまり見て初めて分かるその部分には、届かない。そこには、向かって操舵すべきものが、ないからだ。より操舵しやすいモデルとは、あなたをより多く、その遅れる部分へと符号化したモデルだ。人間は、まだ軌跡になっていないその手の、積み立てられない源であり、機械はその源になれない。それを源にするはずの行為が、すでに成された後にしか、学ぶ元を残さないからだ。
噛み合いが源を食う
ここで、その提案は、ただ不完全であるにとどまらず、自分自身に抗して働き始めるのだが、それは彼が最も喜んでいる部分、つまりあの相互作用、二つの資本が共に複利で膨らむこと、だ。ループを一周たどってみよ。人間の判断が軌跡を作る。トークン資本がそれを符号化する。そしてトークン資本は、キャンバスと、エージェントたちと、委任が積もる受信箱を通じて、人間が次にどう働くかを作り直し、その結果、次の軌跡は、古い軌跡から来たそのトークン資本によって形づくられる。彼が讃えるその相互作用は、両方の資本を内に抱えたループであり、そのようなループは、生成的な核を捉え損なうにとどまらない。それをすり減らしうる。
そのすり減りには仕組みがあり、彼はそれが何をするかを見ないまま、それに名を付けた。認知的カバレッジ(cognitive coverage)、つまり、エージェントが仕事を成した後に、人がそれが何をしたかを演繹的に把握できるよう、ある同僚が作ったあのクイズは、人間の評価的な判断を現在にとどめる。生成的な種類はとどめない。二つは別物で、私はその違いを、つまりレビューは何かが間違っているときを見分けるよう判断を鍛え、作ることは正しさがどんな姿かを知るよう判断を鍛えるということを、そして、著す能力は仕事をすることで、つまり意図を成果物へと訳すことを下手に、そして上手にこなすまでの年月で築かれるということを、論じてきた。ところがその仕事を、今やループがする。楽観論者の答えは、定型の仕事を肩代わりさせれば、人は最前線の仕事に、より少なくではなく、より多く解き放たれる、というもので、一人のキャリアの内では、しばらくは、それは本当でありうる。パイプラインについては本当ではない。先任の最前線の判断は、後任の定型の仕事から築かれたのであり、その定型がなくなれば、先任はなおここにいるが、次の先任は作られていない。企業は、判断を符号化することには上達しながら、判断を生み出すことには下手になる。後任の反復を先任の判断へと変えていたそのパイプラインは、ループが到来する前から、すでに薄くなりつつあった。ループは、その不足を受け継ぐにとどまらない。企業の日々の仕事を、企業が買えないその能力を、もはや育てないものにすることで、その不足をいっそう深める。
積み立てられないもの
ここで、その堀が、直観に抗して、解ける。より深い歴史を持つ既存企業が、自分の過去をより多く掘り出すこと、つまり二十年分の軌跡を持つ企業が、二年分の企業より豊かなトークン資本を築くことを、認めよう。それが掘り出したのは過去だ。そして、それをより多く抱え、より上手く符号化するほど、次の決定を、前の決定の記録から引き出そうとする、符号化された過去に判断を代わらせようとする引きが、強くなる。企業はそれに抗える。古い軌跡の重みを下げ、トークン資本を主人ではなく道具として扱える。だが、その抵抗は資産の木目に逆らう。その資産の眼目のすべてが複利で膨らむことであり、複利で膨らむのは過去だからだ。より深い歴史が、法則として、より重い錨であるわけではない。それは、錨を下ろしたいという、より強い誘惑、つまり、製品と事業モデルの次元から、判断そのものの次元へと降りてきた、あの古い能力の罠だ。
こうして、基盤の逆転が一緒くたにしていた二つのものが、離れる。基盤は、コモディティ化していくモデルに抗して企業が価値を捉える場所であり、これは本当で、大きな値打ちがある。それは、持続する優位とは同じではない。それが複利で積むのは、企業の人々が定めた最前線を、一歩遅れて符号化したものであり、優位はいつでも、先に行くことであって、企業が行った場所の符号化ではなかったからだ。先に行くことは積み立てられない。それが軌跡を残すその瞬間、それは過去であり、軌跡こそ、ループが抱えられる唯一のものだからだ。企業は、自分の優位を積み立てられない。その優位は、毎夕、戸口から歩き出て、朝にまた入ってくるか、競合へ去るか、引退し、ループは、それが源であることをやめた日まで、それがした全てのことの忠実な記録を、保ち続ける。
この主張がどこで最も弱いかを述べておくべきだ。その弱さこそ、主張の境界だからだ。ある分野がゆっくり動くところ、去年の判断が今年の正しい答えのなお大半であるところでは、一歩遅れる符号化器でも十分で、トークン資本は立派な堀であり、上のどれも噛みつかない。この主張が最も強いのは、まさに最前線が速く動くところ、今年の正しい答えが、去年の立ち位置では届きえなかった答えであるところであり、そここそ、ナデラ自身の切迫が、私たちを置き続ける場所だ。彼は両方を持てない。世界が彼の言うほど速く入れ替わっているなら、彼が皆に複利で積めと説くその資産は、積もるのと同じ速さで、価値が目減りしている。
後ろを向いている
彼は、楽観論者たちが終わるところで終わる。あの長い歴史とあの夢、近代世界を築き上げたあの好循環と、いまやそのすべてが年に十パーセントで複利で膨らむという希望の上で。私はその夢を胸に迫るものと感じ、ただ、それがある尺度、つまり成長へ向かう登りであり、その中の何一つ、その尺度を著してはいないこと、そして、彼が中心に据える人間が、吸収されていく途上の存在ではなく、その吸収が頼りながら、届きえない存在であることに、気づくばかりだ。
彼が描くその機械は現実で、これからも良くなり続け、そしてそれが罠だ。それが良くなり続ける先が、すでにそうであった企業であることに、なるからだ。トークン資本を最も強く複利で膨らませる企業は、自分の過去の判断の、可能なかぎり忠実なモデルを築き、その忠実さを進歩と感じ、自分の過去の自分になることが上手くなるのを、より良くなることと取り違える。それが決して積み立てられない唯一のもの、つまり、自分の記録が一度も行ったことのないどこかにいる能力こそ、これまで優位であった唯一のものだ。トークン資本は後ろを向いている。最前線は、記録の中にあったことなど一度もない。それは、その記録を残す者の中にあった。
Footnotes
-
アルファ碁対イ・セドル、第2局、第37手(2016年3月)。約一万分の一という数字はデイビッド・シルバー(David Silver)が記録映画 AlphaGo(2017)とディープマインドのサイトで述べたもので、方策ネットワークを記述したネイチャー論文(Silver et al., 2016)には、この手ごとの確率推定は載っていない。 ↩
-
単一の結果ではなく代表例。Audrey Huang et al., “Self-Improvement in Language Models: The Sharpening Mechanism,” arXiv:2412.01951 (2024) は、自己改善をモデルがすでに生成できる確率質量を集める働きとして定式化し、それが基盤モデルにない情報を新たに生み出せないことを証明する。同じ天井は Yue et al., arXiv:2504.13837 にも含意されている。 ↩
-
形式版は P対NP の背後にある検証・生成の非対称性だ。解の証明書は、それを見つけるのが難しくても多項式時間で確かめられる。クレイ数学研究所の問題記述(Cook)を見よ。これは計算量理論の結果であって、モデルについての経験的主張ではない。 ↩
-
いまだ決着しない、生きた論争だ。Yue et al., “Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?”, arXiv:2504.13837 (2025) は、RLVR は基盤モデルの届く範囲の内でサンプリングを鋭くするだけだとする。ProRL, arXiv:2505.24864 (2025) は、十分な訓練があれば基盤モデルがどんなサンプリングでも届かない問題を解くとする。定説ではなく論争として引く。 ↩
-
Edward Hughes et al., “Open-Endedness is Essential for Artificial Superhuman Intelligence,” arXiv:2406.04268 (2024)。面白さとは観察者が選んだ損失関数であり、人間のデータから学ばれ、開かれたシステムはその観察者を連れ続けねばならない。固定された新規性の信号がごまかされる点はより古く、スタンリーとレーマンの新規性探索(Why Greatness Cannot Be Planned, 2015)に由来する。 ↩
-
Ilia Shumailov et al., “The Curse of Recursion,” arXiv:2305.17493、“AI models collapse when trained on recursively generated data,” Nature 631 (2024) として出版。生成データで再帰的に訓練すると分布が崩れる。その重しは本物のデータだ。Gerstgrasser et al., arXiv:2404.01413 (2024) は、本物のデータを合成データと共に蓄積すれば崩壊を避けられることを示す。 ↩