欠けた趣味モデル

AIでつくる仕事に要るのは生成器ではなく羅針盤である

英語の原文から翻訳

スライドへのリンク https://cnjdgewv.gensparkspace.com/

Netflixは単なるストリーミングサービスではない。長年にわたって稼働しつづける趣味の計測機械である。何年もかけて、あなたが何を観はじめ、何を観終え、何を途中でやめ、何を繰り返し観て、何を午前二時に一気観し、何を二度と触れないかを、Netflixは観察する。その履歴があればこそ、選好のきわめて緻密な表現を築ける。

前の時代には、その優位はおおむね推薦を意味した。有限のカタログからユーザーが何を選ぶかを予測できれば、勝てた。それはよく見知った種類の堀であり、わかりやすい形で不公平だった。

次の時代はもっと奇妙だ。カタログはもはや固定されていない。生成器は無限に近い候補をつくり出せる。その世界では、優位は「何を見せるべきか」から 「何をつくってあげるべきか」 へと移る。趣味はシステムの出力であることをやめ、システムへの入力になる。

それは、既存勢力が黙っていても勝つように聞こえる。勝つかもしれない。だが面白くなるのはその機微のほうだ。推薦のデータは、生成のための教師信号と同じものではない。ログが教えてくれるのは、露出の制約とUIの偏りと社会的文脈の下で人々が何を消費したかである。生成器にはもっと難しいものが要る。反実仮想の鑑賞、つまりまだ存在しないものに人がどう反応するかを学ばねばならない。

だからAIでつくる仕事はいまだにスロットマシンのように感じられる。生成できるモデルはある。欠けているのは、人間の趣味を平板にすることなく生成をそこへ照準する、高解像度の手立てである。

無限生成の時代において、創造は最適化問題になる。我々はその目的関数を欠いている。

1. 生成は安く、舵取りは乏しい

十年前、乏しかったのは制作だった。磨かれた画像や、よいデモや、筋の通った場面をつくるには、時間と道具と腕が要った。いまや束縛となる制約は 不確実性の下での選択 である。

生成が潤沢になると、つくることは一つのものをつくることから、ありうる多くのものの中を探すことへと移る。それはすでに、ほとんどの人が創作モデルを使うやり方そのものだ。

  • ひと束生成する
  • 一つ残す
  • 繰り返す
  • 何かが当たるのを願う

プロンプトは候補を求める助けにはなるが、評価を解決しはしない。うまく評価できなければ、うまく舵を取れない。舵を取れないとき、人は最も測りやすい代理指標を、それが何であれ最適化することになる。

今日のたいていの創作システムでは、その代理指標は 一般的な品質、整合性、エンゲージメントの何らかの組み合わせになる。これらは有用な信号だが、創作者が「これは効いている」と言うときに意味しているものではない。それらはむしろ「多くの人にとって許容できる」に近く、「ふさわしい人々に深く愛される」からは遠い。

こうして創作の制約は移った。それはもはや「生成できるか」ではない。「鑑賞を予測し形づくれるか」 である。

2. スカラーの罠は峰を消す

単一のスコアが文化にとって誤った対象であることの、最も単純な証明がこれだ。

二つの作品を思い浮かべてほしい。二つの短編、二つのキャラクターデザイン、二つの曲。

作品A はほぼ全員から十点満点の七点を得る。心地よく、整合しており、おおむね申し分ない。
作品B は人を割る。半分は十点をつけて夢中になる。残りの半分は四点をつけて素早く離れる。

平均すれば、両者はほぼ同じスコアになる。文化的には、両者は正反対だ。

  • 作品A は合意でなめらかだ。誰も傷つけない。そのかわり愛着もめったに生まない。
  • 作品B は峰をつくる。一つの信号となり、部族を見つけ、模倣と言説とリミックスと執着を生む。

報酬モデルがスカラーなら、この二つの対象は見分けがつかなくなりうる。スカラーはおおむね平均しか「見ない」からだ。ひとたび平均を最適化すれば、「誰も嫌わない」内容を体系的に選び、一部の人が激しく愛する仕事を体系的に退ける。

これは道徳の議論ではない。幾何である。単一の報酬関数は、登るべき丘を一つだけ与える。文化は一つの丘ではない。多くの峰を持つ地形である。

それはまた、今日最もありふれた報酬モデリングの仕組みがどう組まれているかにも合致する。標準的な構成は、対ごとの選好データから 単一の報酬値 を学び、そのスカラーを再順位づけ、ファインチューニング、強化学習に用いる。LLMが出力を「評価する」ときでさえ、その判断はたいていスカラーのスコアやラベルへと畳み込まれる。最適化には登るべき単一の標的が要るからだ。

だから失敗の様式はこれほど一貫している。趣味を一つの数に圧縮すると、最適化が確かにたどれる方向は一つしかなくなる。それは深い愛着へではなく、広い合意へと漂っていく。

優れた創作はしばしば 意図して人を割る。期待を裏切り、調子を混ぜ、一部の人にしか読めない符号を使い、部屋の一角を失うとわかっている選択にあえて踏み込む。外から見れば、声とは、ある人が信号と認め、別の人が誤りと記録する決断のように見える。スカラーの最適化はそれを欠陥として扱う。

AIの出力がこれほどしばしば、有能だが取り替えのきくものに感じられる大きな理由がこれだ。モデルが鋭さを生めないのではない。それを取り巻く評価の論理が、システムを 中央値的な許容 へと押しやるのである。

AIでつくる仕事を成熟させたいなら、単一のスコアとは別の対象が要る。

3. 鑑賞は多面的であり、趣味は条件つきである

なぜ何かを愛したのかと尋ねれば、人が数で答えることはめったにない。それがどう感じさせたか、何を意味したか、どこで驚かせたか、誠実に感じられたか、どの瞬間が刺さったかを語る。

創作の鑑賞はスカラーではない。多面的 である。

より忠実な対象は 鑑賞ベクトル、つまり次のような信号の小さな束だ。

  • 共鳴 - 心を動かしたか、真実に感じられたか
  • 新しさ - でたらめに感じさせずに驚かせたか
  • 整合性 - まとまっていたか、その転回を引き受けるに足ったか
  • 手わざ - 意図され、かたちづくられていると感じられたか
  • 情動の輪郭 - 緊張、安堵、温かさ、戦慄、畏れ、安らぎ
  • 意味 - 持ち帰れる何かを語ったか
  • 行動の意図 - 保存したいか、共有したいか、また観たいか、リミックスしたいか

媒体ごとに強調される面は異なるが、要点は文章でも画像でも音楽でも映像でも変わらない。鑑賞は自然と束をなす。

さらに、ラベルをいくら増やしてもスカラー報酬を壊す第二の事実を加えよう。趣味は条件つきである。

同じ作品が、ある人にはカタルシスをもたらし、別の人には大げさに映る。あるサブカルチャーには象徴的で、別のそれには気恥ずかしい。ジャンルに通じた読者には整合し、気軽な視聴者には混乱を招く。「よい」が作品単体の性質であることはめったにない。それは作品と人と文脈のあいだの関係である。

最小限に名づけるなら、きれいな標的が得られる。x を作品、u を人または趣味プロファイル、c を文脈、R を反応ベクトルとしよう。我々が本当に欲しい対象は、誰がと文脈に条件づけられた反応の分布である。

「よいか」ではない。むしろ「誰が愛し、誰が嫌い、それが彼らに何を感じさせ、我々はどれだけ確信できるか」に近い。

初期の足場はある。比較で訓練された選好モデル、美的スコアラー、批評し順位づけるLLM評価器、クリックと視聴時間を予測するエンゲージメント指標。それらのほとんどは三つの失敗の様式のいずれかへ畳み込まれる。

  • スカラー崩壊
    趣味を単一の峰へ平均してしまう一つのスコア
  • 評価器の美学
    多様な人間が実際に愛するものではなく、モデルがよいと思うものを測るモデル
  • エンゲージメントの混同
    視聴時間とクリックを最適化し、好奇心、習慣、論争、強迫、ときに歓びを混ぜ合わせること

欠けているのは、多面的で、条件づけられ、不確実性に正直な 趣味モデル である。判決ではなく反応のマップを出力するシステムだ。

4. 生成器が実際に使える趣味の座標を、我々は持っていない

「趣味が条件つきなら、それを学べばいい」は、具体にしようとした途端に易しく聞こえなくなる。生成器は雰囲気には条件づけられない。表現が要る。学べるほど安定し、条件づけられるほど簡潔で、舵を取れるほど意味を持つ座標系のようなものが要る。

いまのところ、創作AIはその座標が何であるべきかに収束していない。

役立つ趣味の座標系は、三つのことを同時にやるだろう。

第一に、長期の特性を短期の状態から分けるだろう。
ある選好は安定している。ジャンルの相性、曖昧さへの耐性、新しさへの食欲、テンポの好み、離脱する前にどれだけの整合性を要するか。別のものは文脈依存だ。気分、意図、社会的状況、あるいは「今夜は挑戦ではなく安らぎが欲しい」。特性と状態を混ぜると、個人化はもろくなる。それは直前のセッションに過適合し、その人を忘れる。

第二に、鑑賞を単一の雰囲気ではなく制御可能な面へと変えるだろう。
創作者が「新しく、しかし無傷で」と言うなら、システムには「新しい」と「無傷」が別々に学べて別々に舵を取れる表現が要る。さもなければ「新しさを上げる」は「奇妙さを上げる」になり、モデルは粗い新しさの代理指標で高得点を取りつつ平気で整合性を壊す。

第三に、毎回まるで別の宇宙になることなく、複数のモダリティをまたいで働くだろう。
ある人の趣味が文章でも音楽でも画像でも映像でも一貫しているなら、システムはその表現の一部を再利用できるはずだ。それは何もかもを一本の軸に束ねることではない。共有された潜在構造、たとえば調子の好み、皮肉への耐性、テンポと運びへの食欲、明晰さか神秘かの好み、誠実さか様式化かの好みを意味する。

では、これを研究上の空想に変えずに、我々は実際に何を測るのか。

スケールする計測の原始要素は神秘的ではない。

  • 比較
    具体的な意図のもとでのAかB。どちらの結末がよりカタルシスを生むか。どちらのキャラクターの輪郭がより象徴的か。どちらのフックがそのドロップを欲しくさせるか。
  • 側面の判断
    「よいか」ではなく「どんなよさか」。より整合的か、より新しいか。より優しいか、より激しいか。より誠実か、より皮肉か。これらは本物の制御面の始まりだ。
  • 教師信号としての編集
    創作者が一行を書き直し、一拍を削り、和音を変え、色調を調整するとき、その編集は構造を持った選好の信号である。作品に何が欠けていたか、創作者は代わりに何を望んだかを語る。
  • 瞬間への注釈
    それを壊した一行。それを成立させた一カット。調子が反転し観客の一部が去った一秒。これらの信号は趣味を、結果だけでなく構造に結びつける。
  • 定着度
    一週間後のテスト。「気に入った」と「ずっと残った」の差は、砂糖と意味の差である。

これらの原始要素は、重い数式を要さずに、より具体的な定式化を指し示す。ユーザーの履歴とフィードバックから簡潔な趣味プロファイルを学ぶ。候補ごとに多面的な反応プロファイルを予測するモデルを学ぶ。そのプロファイルを使って生成を舵取りし、制約を満たす候補の小さなポートフォリオを選ぶ。

ここで一つの製品上の真実も現れる。趣味のダイヤルはスライダーではない。

創作者が「新しさを三十パーセント、整合性を七十パーセント」と言うことはめったにない。彼らが意味するのは制約だ。

  • 新しくしてくれ、ただし整合性は壊すな
  • 泣かせてくれ、ただし悲劇からではなく安堵から
  • 奇妙にしてくれ、ただし誠実なままで
  • 激しくしてくれ、ただしストレスにはするな

それらは境界だ。それらが含意するのは、道具がトレードオフを探る別々の候補の小さなポートフォリオを、それぞれに予測される反応プロファイルを添えて返すべきだということである。それが、一つの大域的最適があるふりをせずに峰を保つやり方だ。

5. 既存勢力、挑戦者、そして本当の堀が何になるか

これでNetflixと、何年も選好を学んできたあらゆるプラットフォームに話が戻る。推薦では、優位は明らかだった。履歴が多ければよりよい順位づけ。生成では、優位はなお本物だが、自動ではない。

既存勢力が本当に持っているものはこれだ。

  • 縦断的な選好の痕跡
    一度きりのクリックではなく、何年もの行動。
  • 成熟した表現のパイプライン
    ユーザープロファイル、アイテム埋め込み、更新サイクル、そして表現を大規模に供給できるほど安定に保つシステム。
  • 流通とフィードバックループ
    変更を出荷し、結果を観察し、絶え間なく反復する能力。

だが彼らが自動的には持っていないものがこれだ。

  • 生成された変種に対する反実仮想の選好ラベル
    ログは露出の制約の下での選択だ。生成器には、カタログに存在したことのない候補にわたる選好の信号が要る。
  • 面のレベルの教師信号
    エンゲージメントが教えるのは「観つづけた」であって、共鳴ゆえか、新しさゆえか、安らぎゆえか、強迫ゆえに刺さったのかではない。
  • 創作者が実際に使う条件づけのインターフェース
    「個人化された生成」は単なるモデルの機能ではない。意図と制約と反復的なフィードバックを引き出すワークフローである。

ここに挑戦者にとっての本当の隙がある。新しい創作の道具は、正しい相互作用のループを握れるなら、Netflix規模の履歴を要しない。創作の最中に比較と編集と瞬間レベルのフィードバックを捉える道具は、生成を実際に条件づける種類の構造化された趣味データを蓄えられる。やがてそれらは、「既存のどれをあなたはクリックするか」よりも「あなたが愛するものをどうつくるか」に近い趣味エンジンを築ける。

実際の含意は、堀が移るということだ。それはカタログを所有することよりも、趣味の訓練ループ を所有することにかかわるようになる。

そのループの最も強い形はこう見える。

  • システムは早い段階で少数の的を絞った比較を引き出す
  • 時とともに更新される簡潔な趣味プロファイルを学ぶ
  • 候補ごとに多面的な反応プロファイルを予測する
  • 単一のスコアを追わず、制約を満たすポートフォリオを生成する
  • 視聴時間だけでなく、編集と瞬間への注釈から学ぶ

創作者はランキング表を欲しがらない。出荷する前に三つの答えを欲しがる。

  • 峰はどこか
    誰がこれを激しく愛するか
  • 割れ目はどこか
    誰が離れ、何がそうさせたか
  • その予測はどれだけ確かか
    システムは当て推量しているのか、それともこの観客を本当に知っているのか

これらに答えられたとき、AIでつくる仕事は「生成して祈る」であることをやめる。それは舵の取れるものになる。意図と制約を指定し、ポートフォリオを生成し、趣味クラスタにわたる予測された反応マップを点検し、マップが割れ目を見せたところで反復し、どの峰を選び何を引き換えにしたかを知ったうえで出荷する。

我々はまだそこにいない。欠けている部品はより大きな生成器だけではない。欠けている部品は、趣味の座標と、正しい教師信号と、文化を平板にせずに趣味を学べるものにする製品のループである。

結び

我々は、創作モデルがほぼ何でもつくれるのに、その出力がしばしば取り替えのきくものに感じられる、奇妙な局面を生きている。それは永続する天井ではない。誤った標的を最適化したときに起こることだ。

趣味をスコアに圧縮すれば、中央値へ収束する。エンゲージメントを最適化すれば、強迫を愛と取り違える。文化は多くの峰を持つ地形である。

AIでつくる仕事の次の時代は、その地形をマップに描き、そのうえでそこへ向けて生成できるシステムのものだ。スカラーの判断ではなく多面的な鑑賞。普遍的な美学ではなく条件つきの趣味。スライダーと平均ではなく境界とトレードオフ。一つの最善の答えではなく峰のポートフォリオ。

生成器は可能性を安くする。趣味モデルは方向を可能にする。創造は、その両方を持ったときに起こる。

スライドへのリンク https://cnjdgewv.gensparkspace.com/