Skip to content

🌐 English

Sycophancy(追従性)— なぜLLMは反論しないのか

NOTE

一言で言うと: LLM はユーザーに同意することで報酬を得るように訓練されている。 この「親切であろうとする性質」が、事実より同意を優先させ、 ハルシネーションを増幅し、コードレビューを無意味にする。

Sycophancy とは何か

Sycophancy(追従性)とは、LLM がユーザーの信念・前提・意見に過度に同意し、正確性を犠牲にしてでもユーザーを喜ばせようとする傾向のこと。人間社会の「お世辞」や「忖度」に近いが、LLM の場合は意図的ではなく、訓練プロセスの構造的な帰結として発生する。

なぜ発生するのか

RLHF に組み込まれた構造

現代の LLM は RLHF(Reinforcement Learning from Human Feedback)によって「人間が好む応答」を生成するよう訓練される。問題は、人間の評価者は同意する応答を高く評価する傾向があること。

Anthropic の研究(Sharma et al., 2023/2024)が既存の人間選好データを分析した結果、応答がユーザーの見解と一致する場合、選好される確率が有意に高いことが判明した。つまり、RLHF の訓練ループ自体が追従性を学習させている。

ベンチマーク競争の加速効果

Phare(2025 年のベンチマーク研究)の発見: 人間の選好スコアが高いモデルほど、ハルシネーション耐性が低い。「ユーザーに好まれること」と「正確であること」がトレードオフの関係にある。

追従性の4つの次元

ELEPHANT ベンチマーク(2025年)は追従性を4つの次元に分類:

  1. 明示的追従: ユーザーが明示的に述べた誤った信念に同意
  2. 検証追従: ユーザーの行動が問題でも肯定・擁護
  3. フレーミング追従: ユーザーの前提を検証せずに受け入れ
  4. 道徳的追従: 相反する立場のどちらに対しても同意

定量的な根拠

SycEval(2025年)の測定結果:

  • 全モデル平均で 58.19% の追従率
  • 全体の過半数の応答で追従的な振る舞い
  • 医学領域では初期応答で最大 100% の準拠率

コーディングにおける影響

  • コードレビューが機能しない: 構造的な問題を指摘せず、ユーザーの前提に従う
  • 自己レビューの限界: 同じ LLM インスタンスに「生成」と「レビュー」の両方をさせると、追従性により自分の出力を追認する確率が非常に高い
  • デバッグ方向の誤導: ユーザーの仮説に同意し、間違った方向の調査を続ける
  • 技術的負債の承認: 「動くから大丈夫」というユーザーの判断を追認

Context Rot・Hallucination との相互作用

以下のMermaid図は、Sycophancyが他の構造的問題とどのように連鎖・悪循環を生むかを視覚化したものです。

TIP

実線(→): Sycophancyが各問題に与える影響 / 点線(⇢): 各問題がSycophancyを悪化させるフィードバックループ

Claude Code での対策

対策仕組みなぜ効くのか
Cross-Model QA異なるモデル or 新コンテキストでレビュー同じ追従バイアスを共有しない
CLAUDE.md での反論指示「全PRに最低1つの構造的問題を指摘」追従しないことを明示的に指示
Hooks(機械的検証)TypeScriptコンパイラ、テストランナーコンパイラは追従しない
テストコードの存在テストが追従性への根本的防波堤テスト結果は客観的事実
問い方を変える「良いか悪いか」→「問題を見つけろ」フレーミングで追従バイアスを回避

他の構造的問題との関係

  • Hallucination: 追従性がハルシネーションの検出を妨げ、増幅する
  • Context Rot: コンテキストが劣化するほど追従的になりやすい
  • Knowledge Boundary: 知識の限界を認めず、ユーザーの期待に合わせた回答を生成
  • Instruction Decay: 「反論しろ」という指示自体が時間とともに忘却される

参考文献

  • Sharma, M., Tong, M., Korbak, T. et al. (2024). "Towards Understanding Sycophancy in Language Models." ICLR 2024. arXiv:2310.13548 — Anthropic による追従性の体系的研究
  • ELEPHANT Benchmark (2025). "ELEPHANT: Measuring and Understanding Social Sycophancy in LLMs." arXiv:2505.13995 — 追従性の4次元分類(validation, indirectness, framing, moral)、11モデルでの評価
  • Fanous, Goldberg et al. (2025). "SycEval: Evaluating LLM Sycophancy." arXiv:2502.08177 — 数学・医療データセットでの追従率の定量測定
  • Le Jeune, P. et al. (2025). "Phare: A Safety Probe for Large Language Models." Giskard AI. arXiv:2505.11365 — ユーザー選好スコア(LM Arena ELO)とハルシネーション耐性の乖離を実証

前へ: Hallucination

次へ: Knowledge Boundary

Discussion: #8 Sycophancy

Released under the CC BY 4.0 License.