【PR】本記事はプロモーションを含みます。
「ハーネスエンジニアリングって最近よく聞くけど何のこと?」「プロンプトエンジニアリング・コンテキストエンジニアリングと何が違う?」「Claude CodeやCodexで結局どこに効くの?」——AI開発の最前線で急速に注目されているこの新しい概念について、明確な答えを求める方が増えています。
ハーネスエンジニアリングとは、AIエージェントを暴走させずに長時間安定して動かすための「環境設計」を指します。OpenAIが2026年に公式記事で扱い、Anthropicも同様の設計指針を公開したことで一気に主流化しました。
本記事では、概念の本質、基本3要素、AGENTS.md/CLAUDE.mdの書き方、実装手順、実例まで完全解説します。
![]() Winスクール | 【初心者向け】 ・20~30代におすすめ ・データ分析・AIに特化 公式サイトで無料登録する |
|---|
ハーネスエンジニアリングとは|AIエージェントの「馬具」を設計する技術
ハーネスエンジニアリングとは、AIエージェントが動作する環境そのものを設計する行為です。語源の「ハーネス(harness)」は馬具を意味します。どれほど優秀な馬(AIモデル)でも、手綱や鞍(ハーネス)がなければ、目的地に向かって安定して走らせることはできません。
具体的には、AIモデルが呼び出せるツール定義、操作範囲を限定するサンドボックス、これらを連続実行するループ、評価と記録の仕組みなどをまとめて設計することを指します。
「賢いモデル」を選ぶだけでは不十分で、その賢さを実務で発揮させる「土台」を作る発想です。
| 項目 | 内容 |
|---|---|
| 定義 | AIエージェントが安定動作するための環境を設計する行為 |
| 語源 | 馬具(harness)。賢い馬を制御する仕組み |
| 提唱した文脈 | OpenAIが2026年に公式ブログで「Harness Engineering」を発表 |
| 関連概念 | エージェントハーネス、AGENTS.md、CLAUDE.md |
| 主な対象 | Claude Code、Codex、Cursor、OpenClawなどのAIエージェント |
なぜ今必要なのか|プロンプト→コンテキスト→ハーネスの進化軸
AI駆動開発の指示設計は、3段階で進化してきました。
| 世代 | 概念 | 主な対象 | 限界 |
|---|---|---|---|
| 第1世代 | プロンプトエンジニアリング | 1回の質問 | 複雑タスクで破綻 |
| 第2世代 | コンテキストエンジニアリング | セッション単位 | 長時間タスクで限界 |
| 第3世代 | ハーネスエンジニアリング | エージェント環境全体 | 現在のフロンティア |
第1世代のプロンプトエンジニアリングは「1回のチャットでよい答えを引き出す」技術でした。第2世代のコンテキストエンジニアリングは「セッション全体で必要な情報をAIに渡し続ける」技術。
そして第3世代のハーネスエンジニアリングは、「AIが何時間も自律的にタスクを進める環境そのもの」を設計対象にします。
ハーネスの基本3要素
① ルールファイル(レシピ)
AIエージェントが従うべき禁止事項・推奨パターン・コーディング規約・ドメイン知識を記述したテキストファイルです。代表例がCLAUDE.md(Anthropic)とAGENTS.md(OpenAI)。
「このリポジトリのテストはvitestで書く」「Reactコンポーネントは関数型のみ」など、エージェントが暗黙に守るべきルールを明示します。
② フィードバックループ(味見)
AIが実行した結果をすぐに検証・反映できる仕組みです。テスト実行、Lint、ビルドエラー、型チェックなどをエージェントが自分で確認できる状態を作ります。
「書いて→確認して→修正する」のループが速いほど、エージェントの作業品質は劇的に上がります。
③ コンテキスト管理(仕込みメモ)
長時間タスクで「何をどこまでやったか」「何を覚えておくべきか」を整理する仕組みです。plan.mdやmemo.md、Hermes AgentのMEMORY.mdのような永続メモが代表例。
セッションが切れても、次のセッションで前の状態から続行できる「記憶の外部化」がポイントです。
AGENTS.mdとCLAUDE.mdの役割と書き方
OpenAIが推奨する書き方の最重要原則は「AGENTS.mdは目次として扱う」こと。あらゆる情報を詰め込むのではなく、リポジトリの知識ベースを構造化されたdocs/ディレクトリに置き、AGENTS.mdは100行程度の地図にとどめます。
# AGENTS.md(例) ## このリポジトリの全体像 このプロジェクトは [製品名] です。 詳細は docs/architecture.md を参照。 ## コーディング規約 - TypeScript strict mode - 関数コンポーネントのみ - 詳細:docs/coding-standards.md ## テスト - フレームワーク:vitest - 各機能でテストを書く - 詳細:docs/testing.md ## 禁止事項 - console.log の本番コード混入 - any 型の使用 - node_modules 直編集 ## ディレクトリ構成 - src/components/ : UI コンポーネント - src/lib/ : ロジック - docs/ : 詳細ドキュメント ## このリポジトリの黄金原則 - 機能追加よりリファクタを優先 - 不明点はテストを書いて挙動を確認
CLAUDE.mdも構造は同様です。重要なのは「目次→詳細」の二層構造でAIに知識を提供すること。長すぎるルールファイルは逆にAIの判断を鈍らせます。

AGENTS.mdは「目次」として書くのがコツ。100行以内のシンプルなマップにして、詳細は docs/ 配下に置くと、AIが迷わず参照できます。
OpenAI公式が語る「Harness Engineering」の本質
OpenAIが2026年に公開した「Harness engineering: leveraging Codex in an agent-first world」では、ハーネス設計の核心が以下のように整理されています。
- ハーネスはモデルとは別物:モデル単体ではなく、入力・ツール・状態管理・評価・記録を束ねた「土台」を指す
- AGENTS.mdは目次扱い:百科事典化を避け、約100行のマップにとどめる
- 黄金原則をコードベースに直接書く:ESLint・型定義・テストフレームワーク等の機械的ルールで一貫性を担保
- 定期的なクリーンアップ:放置するとハーネス自体が老朽化する。継続的な手入れが必須
- 長時間タスクの安定動作が目標:1回の質問ではなく、数十分〜数時間連続稼働を想定する
これらの原則は、CodexだけでなくClaude Code・Cursor・OpenClawなど他のAIエージェントにもそのまま応用できます。
ハーネスを構成する技術スタック
| 構成要素 | 役割 | 具体例 |
|---|---|---|
| ツール定義 | AIから呼び出せる関数・APIを宣言 | file_read、bash、web_search |
| サンドボックス | 操作範囲を制限する隔離環境 | Docker、ファイル権限、ネットワーク制限 |
| 評価ループ | 結果の良し悪しを自動判定 | テスト実行、Lint、型チェック |
| ログ・トレース | エージェントの行動を記録 | LangSmith、Weights & Biases |
| 永続メモ | セッション越しに状態を保持 | MEMORY.md、plan.md、ベクトルDB |
これらは独立したツールとして実装されている場合もあれば、Claude CodeやCodexのようにAIエージェント側に組み込まれている場合もあります。
自前で組む場合はLangGraph・AutoGen・CrewAIなどのフレームワークを使うと、ハーネス構築が大幅に楽になります。
実装手順|小さく始める7ステップ
リポジトリのルートに置く目次ファイル。100行以内で、コーディング規約・テスト方針・禁止事項・ディレクトリ構成を記述
architecture.md、coding-standards.md、testing.mdなど、目次から参照される詳細を別ファイルに切り出す
vitest/pytest・ESLint・型チェッカーなど、エージェントが自分で結果を確認できる仕組みを整える
DockerやVMでエージェントの操作範囲を制限。ファイル削除や外部APIの暴走を防ぐ
MEMORY.mdやplan.mdなど、セッションが切れても引き継げる外部メモリを用意
「README更新」「ユニットテスト追加」など小さなタスクをエージェントに任せ、ハーネスの効きを確認
ハーネスは育てるもの。週次でAGENTS.mdを見直し、不要なルール削除・新パターンの追加を行う



実装の核は「AGENTS.md + テスト/Lint整備 + サンドボックス」の3点セット。ここまで揃えば、エージェントが安定して長時間動き出します。
ハーネス設計の黄金原則と落とし穴
守るべき黄金原則
- 機械的ルールは実装で強制する:型・Lint・テストでコードベース側に組み込む
- 判断系のルールはAGENTS.md:「いつリファクタするか」「何を優先するか」のような曖昧基準
- シンプルに保つ:100行を超えるAGENTS.mdは判断材料が多すぎてAIが迷う
- 定期的に剪定する:使われていないルール・古いパターンは削除
- 失敗をフィードバックループに組み込む:エラーが出たら原因を分析→ルール化
陥りやすい落とし穴
- AGENTS.mdに何でも詰め込んで「百科事典化」させてしまう
- サンドボックスを設定せず、AIにファイル削除権限を与えてしまう
- テストが整っていない状態でエージェントを動かし、品質劣化に気づけない
- 永続メモを設計せず、長時間タスクで状態を見失う
- ハーネスを「作って終わり」にし、メンテナンスを怠る
実例|「50人→10人」を実現したハーネス設計
業務自動化を手がけるある企業では、従来50人で行っていたデータ処理・帳票作成・メール対応の業務を、AIエージェント+10人のオペレーター体制に再編しました。鍵となったのが、徹底したハーネス設計です。
- 業務ルールをAGENTS.mdに集約:「この案件タイプならこの帳票」「金額X万円超は人間承認」など、判断基準を明文化
- テンプレート資産化:過去の優良アウトプットをdocs/templates/に蓄積し、AIが参照
- 多段サンドボックス:金額・送信先・件数で段階的に権限を切り分け
- 承認フローの組み込み:重要判断は人間に通すフィードバックループを内蔵
- 毎週のチューニング:失敗ケースを分析し、AGENTS.mdに「この場合はこうする」を追加
結果として業務量3倍、人員5分の1を実現。「賢いAIモデル」だけでは到達できないこの結果は、ハーネス設計の品質が成否を決めることを示しています。
プロンプトエンジニアリングとの違い
| 観点 | プロンプト | コンテキスト | ハーネス |
|---|---|---|---|
| 対象 | 1回の質問 | セッション全体 | 環境すべて |
| 主な要素 | 言葉選び・指示構造 | RAG・履歴・前提情報 | ツール・サンドボックス・評価 |
| 改善のスコープ | 会話の質 | 会話の継続性 | 長時間タスクの安定性 |
| 主な担当者 | 利用者・PM | エンジニア・PM | プラットフォーム/SREエンジニア |
3つは排他ではなく、3層構造で重なるものです。良いプロンプトを書いても、ハーネスが貧弱だとエージェントは長時間動けず、逆にハーネスが整ってもプロンプトが粗いと最初から方向性を間違えます。
ハーネスエンジニアリングが向いているプロジェクト
- 大規模リポジトリの保守・改修:AGENTS.mdで一貫性を担保
- ドキュメント自動生成:テンプレ+ルールで品質安定
- テスト自動生成・メンテナンス:フィードバックループが効きやすい
- 業務オペレーション自動化:判断基準のルール化が肝
- 多段ワークフロー(リサーチ→ドラフト→校正→公開):永続メモで状態管理
逆に「単発の質問・1回限りのコンテンツ生成」には過剰投資になります。プロンプト工夫で十分なケースに、わざわざハーネスを組む必要はありません。
よくある質問
Q. プログラマでなくてもハーネスは組めますか?
AGENTS.mdの執筆や業務ルールの整理はプログラミング不要です。ただし、サンドボックスやテスト自動化の整備にはエンジニアスキルが必要なため、「PMが規約・ルールを書き、エンジニアが実行環境を整える」分業が現実的です。
Q. CLAUDE.mdとAGENTS.mdは併用できますか?
はい、併用可能です。CLAUDE.mdはClaude Code向け、AGENTS.mdはOpenAI Codex向けの慣習ですが、中身が似ているため両方をリポジトリに置いてシンボリックリンクで同期する運用が一般的です。
Q. ハーネスはAIエージェントに組み込まれていないのですか?
Claude CodeやCodexのようなエージェントは「最低限のハーネス」を内蔵しています。ただし、自分のリポジトリ・業務に合わせたカスタマイズ(AGENTS.mdの執筆、テスト整備、サンドボックス設定)は利用者側でやる必要があります。
Q. どんな業界・職種で求められるスキルですか?
SaaS・受託開発・自社プロダクト・コンサル業界など、AI駆動開発を本格採用している現場で需要が急拡大しています。プラットフォームエンジニア、SRE、AIリードエンジニアなどのポジションで「ハーネスエンジニアリング経験」が評価されるようになってきました。
Q. 学習リソースは何が良いですか?
OpenAI公式の「Harness Engineering」記事、Anthropic公式のClaude Codeドキュメントが一次情報として最良です。日本語ではFindy Team・サーバーワークスエンジニアブログ・Zennの記事群が実務目線で参考になります。
まとめ|AI時代のエンジニアリングの新しい層
ハーネスエンジニアリングは、プロンプトエンジニアリング・コンテキストエンジニアリングに続く「AI駆動開発の第3の柱」です。
OpenAIやAnthropicのようなトッププレイヤーが公式に推奨し始めたことで、これからの数年でエンジニアの必須スキルになっていきます。
「賢いモデル」を選ぶだけでは、AI開発の差別化はできません。同じClaude/GPT/Codexを使っても、ハーネスの質が高い現場ほど、長時間安定して成果を出せる状況になっています。
関連記事として、Codex・Claude Code・OpenClaw・Hermes Agent・Context Engineeringを併せて読むと、AIエージェント開発の全体像がより明確になります。
まずは自分のリポジトリにAGENTS.mdを1ファイル置くところから、ハーネスエンジニアリングの第一歩を始めてみてください。
![]() ![]() Winスクール | 【初心者向け】 ・20~30代におすすめ ・データ分析・AIに特化 公式サイトで無料登録する |
|---|










コメント