Skip to content

エージェントループのパターン — ハーネスが ②③④ をどう回すか

「連携パターン」でも「ワークフロー」でもない、第 3 の軸。単一エージェントのループの駆動型を整理する。

このドキュメントについて

NOTE

本ページは Harness Engineering との対応関係Orchestration(ループ制御)→ Agent 層 の写像の「中身」を扱う。ハーネスが ① tool_call → ② 実 I/O → ③ 結果 → ④ 文脈に戻す のループをどう反復するかの型(ReAct / Plan-and-Execute / Reflexion / Evaluator-Optimizer)をカタログ化する。

「ハーネスパターン」という名前は標準用語ではないが、その中身は確立して存在する。文献では agent patterns / single-agent patterns / agentic reasoning patterns と呼ばれる。

TIP

3 行で言うと

  • 本サイトの「パターン」には 3 軸ある: 構成(どの部品を組むか)/ トポロジ(複数エージェントの繋がり方)/ ループ(単一エージェントの回し方)。本ページは 3 つ目。
  • ループの型は ReAct(密な反復)/ Plan-and-Execute(計画と実行の分離)/ Reflexion(自己批評)/ Evaluator-Optimizer(生成役と評価役の分離)。
  • Anthropic の「workflows(決定的フロー)vs agents(自律ループ)」二分では、本ページは agents 側にあたる。

3 つの「パターン」軸を混同しない

エージェント設計で「パターン」と言う時、実は層の違う 3 つを指している。

問い性質本サイトのページ
構成パターンどの部品を静的に組むか空間的・静的構成パターン(MCP + Skill 等)
トポロジ(設計パターン)複数エージェントがどう繋がるか空間的・静的エージェント概念の分類(Orchestrator-Worker / Swarm)
ループパターン単一エージェントが ②③④ をどう反復するか時間的・動的本ページ

IMPORTANT

Orchestrator-WorkerSwarm は「誰と誰が繋がるか」のトポロジであって、「どう反復するか」のループ型ではない。両者は直交する。たとえば Orchestrator-Worker の各 Worker が内部で ReAct を回す、という組み合わせが成立する。

ループパターンのカタログ

1. ReAct — 密な反復ループ

Thought(思考)→ Action(ツール呼び出し)→ Observation(結果) を 1 ステップずつ回し、観測を次の思考に戻す。最も基本的で適応的。② 実 I/O ごとに次手を考え直すため、動的・探索的なタスクに強い。

  • 長所: 各ステップで軌道修正できる。実装が単純。
  • 短所: ステップごとに観測を文脈へ積むためトークン消費が増える。長いタスクで脱線・暴走しやすい(→ 上限ガードが必須)。

2. Plan-and-Execute / ReWOO — 計画と実行の分離

先に全手順を計画し、その後は計画どおり実行に徹する。Planner(計画役・ツールを呼ばない)と Executor(実行役)に分かれる。ReWOO は観測を推論から切り離し、トークン消費を抑える派生。

  • 長所: 手順が監査可能・再現可能。長い調査やレポート生成で効率的。
  • 短所: 計画時の前提が崩れると弱い(実行中の軌道修正が効きにくい)。

TIP

実務では 外側を Plan-and-Execute、各ステップ内を ReAct にする組み合わせが多い。予測可能な骨格を保ちつつ、ステップ内では適応する。

3. Reflexion — 自己批評ループ

ReAct を拡張し、各サイクル後に自分の出力を批評し、その洞察を記憶して次に活かす。失敗を学習に変える外側のループ。

  • 長所: 自己修正で難タスクの成功率が上がる。
  • 短所: 批評・再試行のたびにコストが増える。停止条件が甘いと回り続ける。

4. Evaluator-Optimizer — 生成役と評価役の分離

生成役(Optimizer)と評価役(Evaluator)を分け、評価が「不足」と判断したら再生成させる。本サイトの品質ゲートや、翻訳の xcomet ゲートがこの型。

  • 長所: 評価基準が明文化され、品質が安定する。
  • 短所: 評価のオーバーヘッドがコストの天井になる(節約を超えたら本末転倒)。

NOTE

Reflexion が「自分で自分を批評する」のに対し、Evaluator-Optimizer は「別役が評価する」。前者はループ内の自己反省、後者は役割分離。実装では混ざることも多い。

workflows と agents の二分での位置づけ

Anthropic の "Building Effective Agents" は、決まった制御フロー=workflows と、自律的にループを回す=agents を区別する。

本サイトの 連携パターン・ワークフロー は**決定的フロー(workflows 側)のドメイン別カタログ。本ページは自律ループ(agents 側)**の駆動型を扱う。両者は補完関係にある。

選択ガイド

状況推奨パターン
タスクが動的・探索的で、毎ステップ判断が要るReAct
手順が予測可能で、監査・再現性が要る(長い調査・レポート)Plan-and-Execute
トークン消費を抑えたい(観測を推論から切り離す)ReWOO
失敗から学習させ、成功率を上げたいReflexion
品質基準を明文化し、出力を安定させたいEvaluator-Optimizer
入口で種類ごとに振り分けたいrouting(→ Routing vs Cascading

WARNING

どの型でも 上限ガード(最大ラウンド / recursionLimit) は必須。ツールがエラーを返してもモデルは止まらず回り続けるため、収束ガイドと打ち切りがないと暴走とコスト超過を招く。

ハーネス 4 責務との対応

ループパターン主に効くハーネス責務
ReAct / Plan-and-ExecuteOrchestration(ループ制御)
Reflexion / Evaluator-OptimizerOrchestration + フィードバック(評価)
全パターン共通Guardrails(上限ガード・打ち切り)

→ 責務の全体像は Harness Engineering との対応関係、評価の自律修正は サブエージェント品質ゲート を参照。

🔗 さらに深く: なぜ自律ループに「評価」と「上限ガード」が要るのか

本ページはループの型 (What/How) を扱った。「なぜ 自己批評・評価ゲート・上限ガードが必要なのか」を LLM の構造的制約から理解したい場合は、姉妹サイトを参照。

関連ドキュメント

参考文献

  • Anthropic (2024). "Building Effective Agents." Anthropic Engineering. anthropic.com/engineering — workflows vs agents の二分、Evaluator-Optimizer 等の定義
  • Yao, S. et al. (2022). "ReAct: Synergizing Reasoning and Acting in Language Models." arXiv. arXiv:2210.03629 — Thought-Action-Observation ループの原典
  • Shinn, N. et al. (2023). "Reflexion: Language Agents with Verbal Reinforcement Learning." arXiv. arXiv:2303.11366 — 自己批評と言語による強化
  • Xu, B. et al. (2023). "ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models." arXiv. arXiv:2305.18323 — 観測を推論から切り離しトークン削減

前へ: Routing vs Cascading次へ: Discovery vs Production

最終更新: 2026 年 6 月

Released under the MIT License.