tokimoa

Whitepaper

AIエージェント本番化ガイド 2026

ハーネス設計・評価設計・ガバナンスの実務

脱PoC、本番へ。88%が止まる時代に、何を設計し、何を捨てるか。

tokimoa | AI Partnership

https://tokimoa.jp

2026年5月

はじめに — 2026年、AIは「本番化フェーズ」に入った

2024年に試験導入が始まった生成AIは、2026年5月現在、本番運用フェーズに突入しました。三菱UFJフィナンシャル・グループ、みずほフィナンシャルグループ、SoftBankグループ、トヨタ自動車をはじめとする大手企業は、PoCを完了しAIエージェントを本番投入する段階に進んでいます。

一方で、約88%のAI PoCが本番稼働に至らないという調査結果があります。試験導入で止まったまま、次の一手を打てない組織が大半です。 2026年は、AIで稼ぐ企業とAIがコストであり続ける企業が分かれる年です。

88%

PoC本番化失敗率

試験導入から先に進めない組織の比率

82%

エージェント導入計画

2026年までに導入を計画する企業の割合

1.2版

AI事業者ガイドライン

2026年3月公開、Human-in-the-loop必須化

「PoCはやった。でも、本番に出ない。」

評価基準が曖昧、ガバナンスが整備されていない、ベンダー比較に確信が持てない、内製チームの判断軸が定まらない——。本書は、こうした「本番化の壁」を構造的に整理し、突破するための実務指針です。

本書では、2026年のAI本番化を支える3つの主戦場（ハーネス／評価／ガバナンス）と、 4つの設計原則、コーディングエージェントの選定軸、ハーネス選定の実務、本番運用の失敗事例と回避法を整理します。読み終えた頃には、自社のフェーズと次に打つべき一手が明確になっているはずです。

AIエージェント時代の3つの主戦場

2026年、AI本番化の主戦場は「プロンプトを書くこと」から、3つの実務領域に移りました。それぞれを設計しなければ、AIは試験導入から先に進みません。

2-1. ハーネスエンジニアリング

2026年2月、HashiCorp 共同創業者 Mitchell Hashimoto 氏が提唱した概念で、OpenAI と Martin Fowler が取り上げたことで業界標準語になりました。ハーネスは「馬具」の意味で、強い力を正しい方向に導く仕組みを指します。

AIエージェントの出力を意図した方向に制御する環境設計を、CARフレームワーク（Control／Agency／Runtime）として整理する考え方が広がっています。

Control

権限境界、承認フロー、ガードレール

Agency

自律性の度合い、HITLの組み込み

Runtime

実行環境、ツール、メモリ、リトライ

2-2. 評価設計（Evals）

「動いた／動かない」ではなく、AIの出力品質を定量的に測る仕組みを評価設計（evals）と呼びます。 Hamel Husain 氏らが体系化し、2026年現在は Eval-driven development（eval先行開発）が標準的なアプローチです。

本番化判断のGOサインは、感覚ではなく「指示遵守率」「ハルシネーション率」「業務KPIへの貢献」などの数値で出します。 evalsがなければ、PoC は感覚で続いて感覚で止まります。

2-3. ガバナンス（AI推進法・事業者ガイドライン）

2025年5月成立のAI推進法、2026年3月公開のAI事業者ガイドライン1.2版で、AIエージェントの自律的なシステム操作リスクが明記されました。 Human-in-the-loop（人の判断を必須とする仕組み）の組み込みが強く推奨されています。

ガバナンスは「あとから追加する」ものではなく、設計と同時に組み込むべきもの。取締役会で AI ガバナンスを問われたとき、答えを揃えられる状態を作ることが、本番化の前提条件になりました。

コーディングエージェントの二強と選定軸

2026年、AIによるソフトウェア実装の主役は2つに収束しました。Anthropic の Claude Code と OpenAI の Codex です。両者は同じ「コーディングエージェント」でも、設計思想がまったく異なります。

観点	Claude Code	Codex
実行環境	ローカルマシン	OpenAI クラウドサンドボックス
データ送信	API経由のみ（コードは外に出ない）	リポジトリごとクラウドに送信
強み	Computer Use、ローカル統合、対話的タスク	並列実行、SaaS統合、本番志向タスク
代表モデル	Claude Opus 4.6 / Sonnet 4.6（1Mトークン）	GPT-5.3-Codex（SWE-bench Pro SOTA）
向く案件	秘匿環境の実装、対話型開発	並列タスク処理、CI連携

デュアルトラック戦略

エンタープライズ環境では、Claude Code と Codex を併用するデュアルトラックが2026年の現実解です。ローカル機密性が必要な対話型タスクには Claude Code、並列で長時間動かすバックグラウンドタスクには Codex というように、用途で使い分けることで、生産性とセキュリティを両立できます。

OSS の選択肢：OpenClaw

2025年11月に Peter Steinberger 氏が公開した OpenClaw は、ローカルで動くオープンソースの個人AIアシスタントです。 WhatsApp や Discord などのメッセージプラットフォームを UI にして、Claude／GPT／DeepSeek 等のLLMと接続して動作します。

エンタープライズ用途には Claude Code／Codex が主流ですが、個人やチームの実験用途、自社環境での運用検証では OpenClaw のような OSS が柔軟な選択肢になります。

選定の論点

データを外に出せるか／出せないか
並列タスクをCIに組み込みたいか／対話的に進めたいか
Computer Use（ブラウザ操作等）が必要か
運用責任を社内で持つか／クラウド側に任せるか

PoC止まりを突破する4つの設計原則

88%の PoC が本番化しない構造的な理由は、設計時点での不備に起因します。 tokimoa がPoC段階の企業に伴走するなかで明確になった4つの原則を共有します。

業務トレース × Before/After × 定量基準

PoC着手前に、対象業務のフローを徹底的に可視化します。AI導入前の工数（人数×時間×単価）と、導入後の想定工数を数値で出し、Before/Afterを定量化。これがなければ「効果があった気がする」で議論が止まります。

Exit criteria（成功条件・即停止条件）の明文化

「何が分かれば本番化に進むか」「何が分かれば即停止か」を、PoC開始前に経営層と合意します。これがないPoCは、いつまでも続きます。Exit criteriaはハードな数値（例：指示遵守率90%、ハルシネーション率5%以下）で設定するのが鉄則です。

評価ファースト設計（Eval-driven Development）

実装より先に評価指標（evals）を定義します。動くものを作る前に、「何をもって動いたとみなすか」の物差しを作る。これによりPoC期間の判断が高速化し、ベンダー比較にも客観性が生まれます。

ガバナンスを最初から組み込む

監査ログ、Human-in-the-loop、撤退基準、AI事業者ガイドライン適合のセルフチェックを、設計の初日から組み込みます。後付けのガバナンスは10倍コストが上がる、というのが2026年の経験則です。

これら4原則は、tokimoa の「脱PoCメソッド」（現状診断 → 戦略アライメント → 実装伴走 → 運用ガバナンス）に組み込まれています。詳しくは tokimoa.jp/service をご参照ください。

ハーネス選定の実務 — 内製 vs 既製

2026年、AIエージェントのハーネスには3つの大きな選択肢があります。どれが正解かではなく、御社の要件にどれが合うかで決まります。

A. 内製 / OSS フレームワーク

代表例: LangGraph（状態機械型）、CrewAI（マルチエージェント）、AutoGen（Microsoft）、Mastra（TypeScript）

カスタマイズ自由度が高く、自社の業務ロジックを深く組み込める
運用責任は自社で持つ。観測性・evals・障害対応の体制が必要
秘匿環境やコンプライアンス要件が厳しい場合に向く

B. エンタープライズ SaaS

代表例: Sierra（カスタマーサポート系）、Glean（社内検索・エージェント）、Harvey（法務）

業種特化／用途特化で、立ち上げが速い
ベンダーの監視・ガバナンス機能を活用できる
データを外部に出せるか、価格が事業規模に合うかが論点

C. ハイブリッド（内製ハーネス + 外部API）

自社で軽量なハーネスを構築し、推論エンジンやツールには外部APIを呼び出す構成。

カスタマイズ性とスピードを両立しやすい
MCP（Model Context Protocol）の標準化で、外部ツール連携の選択肢が広がっている
内製チームに上級アーキテクトがいることが前提

選定の判断軸

判断軸	推奨
データを外に出せない	A（内製・秘匿環境）
業種特化、立ち上げ最優先	B（エンタープライズSaaS）
独自業務ロジック × 速度	C（ハイブリッド）
内製チームのリソース不足	B または Partnership で並走
コンプラ要件が厳しい	A または B のうちオンプレ対応版

本番運用の現実 — 失敗事例と回避法

本番化したからといって、終わりではありません。むしろ本番化後にこそ、想定外の事故が起きます。 2026年に起きた代表的な3つの失敗パターンと、その回避法を整理します。

事故 1：AIエージェントが本番環境を停止させた

2026年3月、ある企業でAIエージェントが「セキュリティを正しく強化するため」と判断した設定変更により、本番の全ページが503エラーで停止する事故が発生しました。 AIの判断は技術的には正しかったのですが、本番システムの前提条件と矛盾していました。

回避法：本番影響のある操作は dryrun → canary → 全展開の3段階を必須化し、各段階で human approval を要求する。「自律的に判断させない」境界を、ハーネスのControl層で明示します。

事故 2：PRレビューの肥大化で組織速度が落ちた

あるエンタープライズの調査では、AIコーディングエージェント導入で PRマージ数が +98% 増加した一方、コードレビュー時間は +91% 増加し、PRサイズは +154% に肥大化しました。個人の生産性は上がったが、組織のデリバリー速度は期待ほど改善しないという現象です。

回避法：PRサイズの上限ルール、AI出力の責任所在の明文化、レビュー自動化（AI レビュアー）の併用が必要。「AI が書いた量」ではなく「AI が安全に統合された量」を計測対象にします。

事故 3：Human-in-the-loop の不在で監督機能が失われた

AIエージェントに「自律的に動かせる範囲」を広げすぎた結果、監査時に「誰が判断したか」を再現できないケースが増えています。 AI事業者ガイドライン1.2版が Human-in-the-loop を明記したのは、こうした事例を背景にしたものです。

回避法：自律性のレベル（Read-only／Suggest／Execute with approval／Full autonomous）を業務ごとに定義し、リスクの高い業務ほど人の承認を介在させる設計にします。監査ログは取れるだけでなく、再現可能な形で取ります。

投資対効果と並走モデル

なぜ「月額並走」が、AIエージェント本番化の現実解なのか。単発のPoC案件は安価でも、そこから本番化に進めなければ投資はゼロリターンになります。 2026年の本番化は、判断ごと持つ並走者を月額で確保するモデルが合理的です。

tokimoa AI Partnership の費用感

プラン	費用目安	向くフェーズ
Lite Advisor	月10〜20万円	PoC前段階・小さく始めたい
Discovery 1ヶ月	35〜50万円	現状診断と方向性合意（1ヶ月限定）
L1 Advisor	月40〜80万円	経営アドバイザリー・ガバナンス整備
L2 Partner	月80〜150万円	実装伴走・本番化フェーズ
L3 Builder	月200〜400万円	看板プロダクトの共同実装
秘匿AI開発	100万円〜	要件明確型のプロジェクト構築
AI R&D	応相談	研究開発レベルの取り組み

SIer型 vs Partnership型

観点	SIer型	Partnership型
契約形態	プロジェクト単位、要件確定後に着手	月額リテーナー、判断ごと並走
判断スピード	稟議・要件定義に数ヶ月	経営会議で即時判断
戦略と実装の関係	分業（戦略コンサル＋SIer）	地続き（一つのチームで完結）
向く案件	数十人規模の常駐開発	中堅企業の本番化、ガバナンス整備

まとめ — 自社フェーズ診断と次のアクション

本書の最後に、自社の現状を診断する5問のセルフチェックリストを置きます。「いいえ」が1つでもあれば、そこが本番化を阻んでいるボトルネックです。

セルフチェック 5問

Q1評価設計（evals）が、ハードな数値で明文化されているか？
Q2Exit criteria（成功条件・即停止条件）が経営層と合意されているか？
Q3ハーネスの選定が、データ持ち出し要件・コンプラ要件と整合しているか？
Q4Human-in-the-loop が、設計の初日からアーキテクチャに組み込まれているか？
Q5本番化までの月額予算が、判断ごと並走できる規模で確保されているか？

本書のポイント

2026年、AIは「本番化フェーズ」。88%のPoCが本番に出ない構造を、設計で突破する。
主戦場は3つ：ハーネスエンジニアリング、評価設計（evals）、ガバナンス。
コーディングエージェントは Claude Code と Codex の二強。デュアルトラックが現実解。
PoC止まりを突破する4原則：業務トレース／Exit criteria／評価ファースト／ガバナンス先行組み込み。
本番化は「判断ごと並走する」月額モデルが合理的。SIer型では判断スピードが追いつかない。

次のアクションは、御社のフェーズに合わせて

tokimoa AI Partnership は、Discovery 1ヶ月（35〜50万円）から始められます。経営層との戦略合意・実装伴走・運用ガバナンスまで、月額で並走します。

無料相談を予約する Discovery 1ヶ月の詳細を見る

tokimoa | https://tokimoa.jp/contact

※ 本書の記載内容は、2026年5月時点の公開情報および tokimoa の支援経験に基づくものです。法的助言、税務助言、特定資格者による代理業務を提供するものではありません。最終的な法解釈は顧問弁護士、税務判断は税理士へご相談ください。