Whitepaper
AIエージェント本番化ガイド 2026
ハーネス設計・評価設計・ガバナンスの実務
脱PoC、本番へ。88%が止まる時代に、何を設計し、何を捨てるか。
tokimoa | AI Partnership
https://tokimoa.jp
2026年5月
目次
はじめに — 2026年、AIは「本番化フェーズ」に入った
2024年に試験導入が始まった生成AIは、2026年5月現在、本番運用フェーズに突入しました。 三菱UFJフィナンシャル・グループ、みずほフィナンシャルグループ、SoftBankグループ、トヨタ自動車をはじめとする大手企業は、PoCを完了しAIエージェントを本番投入する段階に進んでいます。
一方で、約88%のAI PoCが本番稼働に至らないという調査結果があります。試験導入で止まったまま、次の一手を打てない組織が大半です。 2026年は、AIで稼ぐ企業とAIがコストであり続ける企業が分かれる年です。
88%
PoC本番化失敗率
試験導入から先に進めない組織の比率
82%
エージェント導入計画
2026年までに導入を計画する企業の割合
1.2版
AI事業者ガイドライン
2026年3月公開、Human-in-the-loop必須化
「PoCはやった。でも、本番に出ない。」
評価基準が曖昧、ガバナンスが整備されていない、ベンダー比較に確信が持てない、 内製チームの判断軸が定まらない——。本書は、こうした「本番化の壁」を構造的に整理し、突破するための実務指針です。
本書では、2026年のAI本番化を支える3つの主戦場(ハーネス/評価/ガバナンス)と、 4つの設計原則、コーディングエージェントの選定軸、ハーネス選定の実務、本番運用の失敗事例と回避法を整理します。 読み終えた頃には、自社のフェーズと次に打つべき一手が明確になっているはずです。
AIエージェント時代の3つの主戦場
2026年、AI本番化の主戦場は「プロンプトを書くこと」から、3つの実務領域に移りました。 それぞれを設計しなければ、AIは試験導入から先に進みません。
2-1. ハーネスエンジニアリング
2026年2月、HashiCorp 共同創業者 Mitchell Hashimoto 氏が提唱した概念で、OpenAI と Martin Fowler が取り上げたことで業界標準語になりました。 ハーネスは「馬具」の意味で、強い力を正しい方向に導く仕組みを指します。
AIエージェントの出力を意図した方向に制御する環境設計を、CARフレームワーク(Control/Agency/Runtime)として整理する考え方が広がっています。
Control
権限境界、承認フロー、ガードレール
Agency
自律性の度合い、HITLの組み込み
Runtime
実行環境、ツール、メモリ、リトライ
2-2. 評価設計(Evals)
「動いた/動かない」ではなく、AIの出力品質を定量的に測る仕組みを評価設計(evals)と呼びます。 Hamel Husain 氏らが体系化し、2026年現在は Eval-driven development(eval先行開発)が標準的なアプローチです。
本番化判断のGOサインは、感覚ではなく「指示遵守率」「ハルシネーション率」「業務KPIへの貢献」などの数値で出します。 evalsがなければ、PoC は感覚で続いて感覚で止まります。
2-3. ガバナンス(AI推進法・事業者ガイドライン)
2025年5月成立のAI推進法、2026年3月公開のAI事業者ガイドライン1.2版で、AIエージェントの自律的なシステム操作リスクが明記されました。 Human-in-the-loop(人の判断を必須とする仕組み)の組み込みが強く推奨されています。
ガバナンスは「あとから追加する」ものではなく、設計と同時に組み込むべきもの。 取締役会で AI ガバナンスを問われたとき、答えを揃えられる状態を作ることが、本番化の前提条件になりました。
コーディングエージェントの二強と選定軸
2026年、AIによるソフトウェア実装の主役は2つに収束しました。Anthropic の Claude Code と OpenAI の Codex です。 両者は同じ「コーディングエージェント」でも、設計思想がまったく異なります。
| 観点 | Claude Code | Codex |
|---|---|---|
| 実行環境 | ローカルマシン | OpenAI クラウドサンドボックス |
| データ送信 | API経由のみ(コードは外に出ない) | リポジトリごとクラウドに送信 |
| 強み | Computer Use、ローカル統合、対話的タスク | 並列実行、SaaS統合、本番志向タスク |
| 代表モデル | Claude Opus 4.6 / Sonnet 4.6(1Mトークン) | GPT-5.3-Codex(SWE-bench Pro SOTA) |
| 向く案件 | 秘匿環境の実装、対話型開発 | 並列タスク処理、CI連携 |
デュアルトラック戦略
エンタープライズ環境では、Claude Code と Codex を併用するデュアルトラックが2026年の現実解です。 ローカル機密性が必要な対話型タスクには Claude Code、並列で長時間動かすバックグラウンドタスクには Codex というように、 用途で使い分けることで、生産性とセキュリティを両立できます。
OSS の選択肢:OpenClaw
2025年11月に Peter Steinberger 氏が公開した OpenClaw は、ローカルで動くオープンソースの個人AIアシスタントです。 WhatsApp や Discord などのメッセージプラットフォームを UI にして、Claude/GPT/DeepSeek 等のLLMと接続して動作します。
エンタープライズ用途には Claude Code/Codex が主流ですが、個人やチームの実験用途、自社環境での運用検証では OpenClaw のような OSS が柔軟な選択肢になります。
選定の論点
- データを外に出せるか/出せないか
- 並列タスクをCIに組み込みたいか/対話的に進めたいか
- Computer Use(ブラウザ操作等)が必要か
- 運用責任を社内で持つか/クラウド側に任せるか
PoC止まりを突破する4つの設計原則
88%の PoC が本番化しない構造的な理由は、設計時点での不備に起因します。 tokimoa がPoC段階の企業に伴走するなかで明確になった4つの原則を共有します。
業務トレース × Before/After × 定量基準
PoC着手前に、対象業務のフローを徹底的に可視化します。AI導入前の工数(人数×時間×単価)と、導入後の想定工数を数値で出し、Before/Afterを定量化。これがなければ「効果があった気がする」で議論が止まります。
Exit criteria(成功条件・即停止条件)の明文化
「何が分かれば本番化に進むか」「何が分かれば即停止か」を、PoC開始前に経営層と合意します。これがないPoCは、いつまでも続きます。Exit criteriaはハードな数値(例:指示遵守率90%、ハルシネーション率5%以下)で設定するのが鉄則です。
評価ファースト設計(Eval-driven Development)
実装より先に評価指標(evals)を定義します。動くものを作る前に、「何をもって動いたとみなすか」の物差しを作る。これによりPoC期間の判断が高速化し、ベンダー比較にも客観性が生まれます。
ガバナンスを最初から組み込む
監査ログ、Human-in-the-loop、撤退基準、AI事業者ガイドライン適合のセルフチェックを、設計の初日から組み込みます。後付けのガバナンスは10倍コストが上がる、というのが2026年の経験則です。
これら4原則は、tokimoa の「脱PoCメソッド」(現状診断 → 戦略アライメント → 実装伴走 → 運用ガバナンス)に組み込まれています。 詳しくは tokimoa.jp/service をご参照ください。
ハーネス選定の実務 — 内製 vs 既製
2026年、AIエージェントのハーネスには3つの大きな選択肢があります。 どれが正解かではなく、御社の要件にどれが合うかで決まります。
A. 内製 / OSS フレームワーク
代表例: LangGraph(状態機械型)、CrewAI(マルチエージェント)、AutoGen(Microsoft)、Mastra(TypeScript)
- カスタマイズ自由度が高く、自社の業務ロジックを深く組み込める
- 運用責任は自社で持つ。観測性・evals・障害対応の体制が必要
- 秘匿環境やコンプライアンス要件が厳しい場合に向く
B. エンタープライズ SaaS
代表例: Sierra(カスタマーサポート系)、Glean(社内検索・エージェント)、Harvey(法務)
- 業種特化/用途特化で、立ち上げが速い
- ベンダーの監視・ガバナンス機能を活用できる
- データを外部に出せるか、価格が事業規模に合うかが論点
C. ハイブリッド(内製ハーネス + 外部API)
自社で軽量なハーネスを構築し、推論エンジンやツールには外部APIを呼び出す構成。
- カスタマイズ性とスピードを両立しやすい
- MCP(Model Context Protocol)の標準化で、外部ツール連携の選択肢が広がっている
- 内製チームに上級アーキテクトがいることが前提
選定の判断軸
| 判断軸 | 推奨 |
|---|---|
| データを外に出せない | A(内製・秘匿環境) |
| 業種特化、立ち上げ最優先 | B(エンタープライズSaaS) |
| 独自業務ロジック × 速度 | C(ハイブリッド) |
| 内製チームのリソース不足 | B または Partnership で並走 |
| コンプラ要件が厳しい | A または B のうちオンプレ対応版 |
本番運用の現実 — 失敗事例と回避法
本番化したからといって、終わりではありません。むしろ本番化後にこそ、想定外の事故が起きます。 2026年に起きた代表的な3つの失敗パターンと、その回避法を整理します。
事故 1:AIエージェントが本番環境を停止させた
2026年3月、ある企業でAIエージェントが「セキュリティを正しく強化するため」と判断した設定変更により、本番の全ページが503エラーで停止する事故が発生しました。 AIの判断は技術的には正しかったのですが、本番システムの前提条件と矛盾していました。
回避法:本番影響のある操作は dryrun → canary → 全展開 の3段階を必須化し、各段階で human approval を要求する。 「自律的に判断させない」境界を、ハーネスのControl層で明示します。
事故 2:PRレビューの肥大化で組織速度が落ちた
あるエンタープライズの調査では、AIコーディングエージェント導入で PRマージ数が +98% 増加した一方、コードレビュー時間は +91% 増加し、PRサイズは +154% に肥大化しました。 個人の生産性は上がったが、組織のデリバリー速度は期待ほど改善しないという現象です。
回避法:PRサイズの上限ルール、AI出力の責任所在の明文化、レビュー自動化(AI レビュアー)の併用が必要。 「AI が書いた量」ではなく「AI が安全に統合された量」を計測対象にします。
事故 3:Human-in-the-loop の不在で監督機能が失われた
AIエージェントに「自律的に動かせる範囲」を広げすぎた結果、監査時に「誰が判断したか」を再現できないケースが増えています。 AI事業者ガイドライン1.2版が Human-in-the-loop を明記したのは、こうした事例を背景にしたものです。
回避法:自律性のレベル(Read-only/Suggest/Execute with approval/Full autonomous)を業務ごとに定義し、 リスクの高い業務ほど人の承認を介在させる設計にします。監査ログは取れるだけでなく、再現可能な形で取ります。
投資対効果と並走モデル
なぜ「月額並走」が、AIエージェント本番化の現実解なのか。 単発のPoC案件は安価でも、そこから本番化に進めなければ投資はゼロリターンになります。 2026年の本番化は、判断ごと持つ並走者を月額で確保するモデルが合理的です。
tokimoa AI Partnership の費用感
| プラン | 費用目安 | 向くフェーズ |
|---|---|---|
| Lite Advisor | 月10〜20万円 | PoC前段階・小さく始めたい |
| Discovery 1ヶ月 | 35〜50万円 | 現状診断と方向性合意(1ヶ月限定) |
| L1 Advisor | 月40〜80万円 | 経営アドバイザリー・ガバナンス整備 |
| L2 Partner | 月80〜150万円 | 実装伴走・本番化フェーズ |
| L3 Builder | 月200〜400万円 | 看板プロダクトの共同実装 |
| 秘匿AI開発 | 100万円〜 | 要件明確型のプロジェクト構築 |
| AI R&D | 応相談 | 研究開発レベルの取り組み |
SIer型 vs Partnership型
| 観点 | SIer型 | Partnership型 |
|---|---|---|
| 契約形態 | プロジェクト単位、要件確定後に着手 | 月額リテーナー、判断ごと並走 |
| 判断スピード | 稟議・要件定義に数ヶ月 | 経営会議で即時判断 |
| 戦略と実装の関係 | 分業(戦略コンサル+SIer) | 地続き(一つのチームで完結) |
| 向く案件 | 数十人規模の常駐開発 | 中堅企業の本番化、ガバナンス整備 |
まとめ — 自社フェーズ診断と次のアクション
本書の最後に、自社の現状を診断する5問のセルフチェックリストを置きます。 「いいえ」が1つでもあれば、そこが本番化を阻んでいるボトルネックです。
セルフチェック 5問
- Q1評価設計(evals)が、ハードな数値で明文化されているか?
- Q2Exit criteria(成功条件・即停止条件)が経営層と合意されているか?
- Q3ハーネスの選定が、データ持ち出し要件・コンプラ要件と整合しているか?
- Q4Human-in-the-loop が、設計の初日からアーキテクチャに組み込まれているか?
- Q5本番化までの月額予算が、判断ごと並走できる規模で確保されているか?
本書のポイント
- 2026年、AIは「本番化フェーズ」。88%のPoCが本番に出ない構造を、設計で突破する。
- 主戦場は3つ:ハーネスエンジニアリング、評価設計(evals)、ガバナンス。
- コーディングエージェントは Claude Code と Codex の二強。デュアルトラックが現実解。
- PoC止まりを突破する4原則:業務トレース/Exit criteria/評価ファースト/ガバナンス先行組み込み。
- 本番化は「判断ごと並走する」月額モデルが合理的。SIer型では判断スピードが追いつかない。
次のアクションは、御社のフェーズに合わせて
tokimoa AI Partnership は、Discovery 1ヶ月(35〜50万円)から始められます。 経営層との戦略合意・実装伴走・運用ガバナンスまで、月額で並走します。
tokimoa | https://tokimoa.jp/contact
※ 本書の記載内容は、2026年5月時点の公開情報および tokimoa の支援経験に基づくものです。 法的助言、税務助言、特定資格者による代理業務を提供するものではありません。 最終的な法解釈は顧問弁護士、税務判断は税理士へご相談ください。