MENU

ハーネスエンジニアリングとは|プロンプトの次に来るAIエージェント環境設計の仕組み・実装・事例を完全解説

【PR】本記事はプロモーションを含みます。

ハーネスエンジニアリングって最近よく聞くけど何のこと?」「プロンプトエンジニアリング・コンテキストエンジニアリングと何が違う?」「Claude CodeやCodexで結局どこに効くの?」——AI開発の最前線で急速に注目されているこの新しい概念について、明確な答えを求める方が増えています。

ハーネスエンジニアリングとは、AIエージェントを暴走させずに長時間安定して動かすための「環境設計」を指します。OpenAIが2026年に公式記事で扱い、Anthropicも同様の設計指針を公開したことで一気に主流化しました。
本記事では、概念の本質、基本3要素、AGENTS.md/CLAUDE.mdの書き方、実装手順、実例まで完全解説します。

この記事でわかること
  • ハーネスエンジニアリングとは何か(馬具のメタファー)
  • プロンプト→コンテキスト→ハーネスの進化軸
  • 基本3要素(ルールファイル・フィードバックループ・コンテキスト管理)
  • AGENTS.md/CLAUDE.mdの役割と書き方
  • 実装手順7ステップと黄金原則
  • 「50人→10人」を実現した実例

想定読者:Claude CodeやCodexを使いこなしたいエンジニア、AIエージェント設計に取り組むPM、AI駆動開発で失敗した経験のある方。


Winスクール
【初心者向け】
・20~30代におすすめ
・データ分析・AIに特化
公式サイトで無料登録する
目次

ハーネスエンジニアリングとは|AIエージェントの「馬具」を設計する技術

ここで覚えてほしい一言

ハーネスとは「馬具(手綱・鞍)」のこと。優秀な馬(AIモデル)も、ハーネスがなければ目的地まで走れない。

ハーネスエンジニアリングとは、AIエージェントが動作する環境そのものを設計する行為です。語源の「ハーネス(harness)」は馬具を意味します。どれほど優秀な馬(AIモデル)でも、手綱や鞍(ハーネス)がなければ、目的地に向かって安定して走らせることはできません。

具体的には、AIモデルが呼び出せるツール定義、操作範囲を限定するサンドボックス、これらを連続実行するループ、評価と記録の仕組みなどをまとめて設計することを指します。
「賢いモデル」を選ぶだけでは不十分で、その賢さを実務で発揮させる「土台」を作る発想です。

項目内容
定義AIエージェントが安定動作するための環境を設計する行為
語源馬具(harness)。賢い馬を制御する仕組み
提唱した文脈OpenAIが2026年に公式ブログで「Harness Engineering」を発表
関連概念エージェントハーネス、AGENTS.md、CLAUDE.md
主な対象Claude Code、Codex、Cursor、OpenClawなどのAIエージェント

なぜ今必要なのか|プロンプト→コンテキスト→ハーネスの進化軸

ここで覚えてほしい一言

AIへの指示の仕方は「プロンプト → コンテキスト → ハーネス」と進化。今は3段階目に入った。

AI駆動開発の指示設計は、3段階で進化してきました。

世代概念主な対象限界
第1世代プロンプトエンジニアリング1回の質問複雑タスクで破綻
第2世代コンテキストエンジニアリングセッション単位長時間タスクで限界
第3世代ハーネスエンジニアリングエージェント環境全体現在のフロンティア

第1世代のプロンプトエンジニアリングは「1回のチャットでよい答えを引き出す」技術でした。第2世代のコンテキストエンジニアリングは「セッション全体で必要な情報をAIに渡し続ける」技術。
そして第3世代のハーネスエンジニアリングは、「AIが何時間も自律的にタスクを進める環境そのもの」を設計対象にします。

ハーネスの基本3要素

ここで覚えてほしい一言

ハーネスは「ルールファイル」「フィードバックループ」「コンテキスト管理」の3要素で成り立つ。

① ルールファイル(レシピ)

AIエージェントが従うべき禁止事項・推奨パターン・コーディング規約・ドメイン知識を記述したテキストファイルです。代表例がCLAUDE.md(Anthropic)とAGENTS.md(OpenAI)。
「このリポジトリのテストはvitestで書く」「Reactコンポーネントは関数型のみ」など、エージェントが暗黙に守るべきルールを明示します。

② フィードバックループ(味見)

AIが実行した結果をすぐに検証・反映できる仕組みです。テスト実行、Lint、ビルドエラー、型チェックなどをエージェントが自分で確認できる状態を作ります。
「書いて→確認して→修正する」のループが速いほど、エージェントの作業品質は劇的に上がります。

③ コンテキスト管理(仕込みメモ)

長時間タスクで「何をどこまでやったか」「何を覚えておくべきか」を整理する仕組みです。plan.mdmemo.md、Hermes AgentのMEMORY.mdのような永続メモが代表例。
セッションが切れても、次のセッションで前の状態から続行できる「記憶の外部化」がポイントです。

AGENTS.mdとCLAUDE.mdの役割と書き方

ここで覚えてほしい一言

百科事典ではなく「目次」として書く。約100行のシンプルなマップにし、詳細はdocs/配下に置く。

OpenAIが推奨する書き方の最重要原則は「AGENTS.mdは目次として扱う」こと。あらゆる情報を詰め込むのではなく、リポジトリの知識ベースを構造化されたdocs/ディレクトリに置き、AGENTS.mdは100行程度の地図にとどめます。

# AGENTS.md(例)

## このリポジトリの全体像
このプロジェクトは [製品名] です。
詳細は docs/architecture.md を参照。

## コーディング規約
- TypeScript strict mode
- 関数コンポーネントのみ
- 詳細:docs/coding-standards.md

## テスト
- フレームワーク:vitest
- 各機能でテストを書く
- 詳細:docs/testing.md

## 禁止事項
- console.log の本番コード混入
- any 型の使用
- node_modules 直編集

## ディレクトリ構成
- src/components/  : UI コンポーネント
- src/lib/         : ロジック
- docs/            : 詳細ドキュメント

## このリポジトリの黄金原則
- 機能追加よりリファクタを優先
- 不明点はテストを書いて挙動を確認

CLAUDE.mdも構造は同様です。重要なのは「目次→詳細」の二層構造でAIに知識を提供すること。長すぎるルールファイルは逆にAIの判断を鈍らせます。

AGENTS.mdは「目次」として書くのがコツ。100行以内のシンプルなマップにして、詳細は docs/ 配下に置くと、AIが迷わず参照できます。

OpenAI公式が語る「Harness Engineering」の本質

ここで覚えてほしい一言

OpenAI公式は「黄金原則をリポジトリに直接エンコードせよ」と説く。機械的ルールでコードベースの一貫性を保つ。

OpenAIが2026年に公開した「Harness engineering: leveraging Codex in an agent-first world」では、ハーネス設計の核心が以下のように整理されています。

  • ハーネスはモデルとは別物:モデル単体ではなく、入力・ツール・状態管理・評価・記録を束ねた「土台」を指す
  • AGENTS.mdは目次扱い:百科事典化を避け、約100行のマップにとどめる
  • 黄金原則をコードベースに直接書く:ESLint・型定義・テストフレームワーク等の機械的ルールで一貫性を担保
  • 定期的なクリーンアップ:放置するとハーネス自体が老朽化する。継続的な手入れが必須
  • 長時間タスクの安定動作が目標:1回の質問ではなく、数十分〜数時間連続稼働を想定する

これらの原則は、CodexだけでなくClaude Code・Cursor・OpenClawなど他のAIエージェントにもそのまま応用できます。

ハーネスを構成する技術スタック

ここで覚えてほしい一言

ツール定義・サンドボックス・評価ループ・ログ・永続メモの5つを揃えれば、最小限のハーネスは完成。

構成要素役割具体例
ツール定義AIから呼び出せる関数・APIを宣言file_read、bash、web_search
サンドボックス操作範囲を制限する隔離環境Docker、ファイル権限、ネットワーク制限
評価ループ結果の良し悪しを自動判定テスト実行、Lint、型チェック
ログ・トレースエージェントの行動を記録LangSmith、Weights & Biases
永続メモセッション越しに状態を保持MEMORY.md、plan.md、ベクトルDB

これらは独立したツールとして実装されている場合もあれば、Claude CodeやCodexのようにAIエージェント側に組み込まれている場合もあります。
自前で組む場合はLangGraph・AutoGen・CrewAIなどのフレームワークを使うと、ハーネス構築が大幅に楽になります。

実装手順|小さく始める7ステップ

ここで覚えてほしい一言

初手は「AGENTS.md/CLAUDE.mdを書く」「テストを整える」「サンドボックス化する」の3点。これだけで効果が出る。

01
AGENTS.md/CLAUDE.mdを書く

リポジトリのルートに置く目次ファイル。100行以内で、コーディング規約・テスト方針・禁止事項・ディレクトリ構成を記述

02
docs/に詳細ドキュメントを整える

architecture.md、coding-standards.md、testing.mdなど、目次から参照される詳細を別ファイルに切り出す

03
テストとLintを整備

vitest/pytest・ESLint・型チェッカーなど、エージェントが自分で結果を確認できる仕組みを整える

04
サンドボックスで隔離

DockerやVMでエージェントの操作範囲を制限。ファイル削除や外部APIの暴走を防ぐ

05
永続メモを設計

MEMORY.mdやplan.mdなど、セッションが切れても引き継げる外部メモリを用意

06
小タスクで動作確認

「README更新」「ユニットテスト追加」など小さなタスクをエージェントに任せ、ハーネスの効きを確認

07
継続的にクリーンアップ

ハーネスは育てるもの。週次でAGENTS.mdを見直し、不要なルール削除・新パターンの追加を行う

実装の核は「AGENTS.md + テスト/Lint整備 + サンドボックス」の3点セット。ここまで揃えば、エージェントが安定して長時間動き出します。

ハーネス設計の黄金原則と落とし穴

ここで覚えてほしい一言

黄金原則は「機械的ルールはコードベースに、判断ルールはAGENTS.mdに」。混在させると破綻する。

守るべき黄金原則

  • 機械的ルールは実装で強制する:型・Lint・テストでコードベース側に組み込む
  • 判断系のルールはAGENTS.md:「いつリファクタするか」「何を優先するか」のような曖昧基準
  • シンプルに保つ:100行を超えるAGENTS.mdは判断材料が多すぎてAIが迷う
  • 定期的に剪定する:使われていないルール・古いパターンは削除
  • 失敗をフィードバックループに組み込む:エラーが出たら原因を分析→ルール化

陥りやすい落とし穴

  • AGENTS.mdに何でも詰め込んで「百科事典化」させてしまう
  • サンドボックスを設定せず、AIにファイル削除権限を与えてしまう
  • テストが整っていない状態でエージェントを動かし、品質劣化に気づけない
  • 永続メモを設計せず、長時間タスクで状態を見失う
  • ハーネスを「作って終わり」にし、メンテナンスを怠る

実例|「50人→10人」を実現したハーネス設計

ここで覚えてほしい一言

業務自動化案件で50人体制を10人に圧縮。鍵はモデル選びではなく「ハーネス設計の質」。

業務自動化を手がけるある企業では、従来50人で行っていたデータ処理・帳票作成・メール対応の業務を、AIエージェント+10人のオペレーター体制に再編しました。鍵となったのが、徹底したハーネス設計です。

  • 業務ルールをAGENTS.mdに集約:「この案件タイプならこの帳票」「金額X万円超は人間承認」など、判断基準を明文化
  • テンプレート資産化:過去の優良アウトプットをdocs/templates/に蓄積し、AIが参照
  • 多段サンドボックス:金額・送信先・件数で段階的に権限を切り分け
  • 承認フローの組み込み:重要判断は人間に通すフィードバックループを内蔵
  • 毎週のチューニング:失敗ケースを分析し、AGENTS.mdに「この場合はこうする」を追加

結果として業務量3倍、人員5分の1を実現。「賢いAIモデル」だけでは到達できないこの結果は、ハーネス設計の品質が成否を決めることを示しています。

プロンプトエンジニアリングとの違い

ここで覚えてほしい一言

プロンプトは「依頼文」、コンテキストは「会話の前提」、ハーネスは「動作環境そのもの」

観点プロンプトコンテキストハーネス
対象1回の質問セッション全体環境すべて
主な要素言葉選び・指示構造RAG・履歴・前提情報ツール・サンドボックス・評価
改善のスコープ会話の質会話の継続性長時間タスクの安定性
主な担当者利用者・PMエンジニア・PMプラットフォーム/SREエンジニア

3つは排他ではなく、3層構造で重なるものです。良いプロンプトを書いても、ハーネスが貧弱だとエージェントは長時間動けず、逆にハーネスが整ってもプロンプトが粗いと最初から方向性を間違えます。

ハーネスエンジニアリングが向いているプロジェクト

ここで覚えてほしい一言

同じ作業を繰り返し回す」「コード/ドキュメント生成が中心」「長時間タスクが必要」な現場こそ威力を発揮。

  • 大規模リポジトリの保守・改修:AGENTS.mdで一貫性を担保
  • ドキュメント自動生成:テンプレ+ルールで品質安定
  • テスト自動生成・メンテナンス:フィードバックループが効きやすい
  • 業務オペレーション自動化:判断基準のルール化が肝
  • 多段ワークフロー(リサーチ→ドラフト→校正→公開):永続メモで状態管理

逆に「単発の質問・1回限りのコンテンツ生成」には過剰投資になります。プロンプト工夫で十分なケースに、わざわざハーネスを組む必要はありません。

よくある質問

Q. プログラマでなくてもハーネスは組めますか?

AGENTS.mdの執筆や業務ルールの整理はプログラミング不要です。ただし、サンドボックスやテスト自動化の整備にはエンジニアスキルが必要なため、「PMが規約・ルールを書き、エンジニアが実行環境を整える」分業が現実的です。

Q. CLAUDE.mdとAGENTS.mdは併用できますか?

はい、併用可能です。CLAUDE.mdはClaude Code向け、AGENTS.mdはOpenAI Codex向けの慣習ですが、中身が似ているため両方をリポジトリに置いてシンボリックリンクで同期する運用が一般的です。

Q. ハーネスはAIエージェントに組み込まれていないのですか?

Claude CodeやCodexのようなエージェントは「最低限のハーネス」を内蔵しています。ただし、自分のリポジトリ・業務に合わせたカスタマイズ(AGENTS.mdの執筆、テスト整備、サンドボックス設定)は利用者側でやる必要があります。

Q. どんな業界・職種で求められるスキルですか?

SaaS・受託開発・自社プロダクト・コンサル業界など、AI駆動開発を本格採用している現場で需要が急拡大しています。プラットフォームエンジニア、SRE、AIリードエンジニアなどのポジションで「ハーネスエンジニアリング経験」が評価されるようになってきました。

Q. 学習リソースは何が良いですか?

OpenAI公式の「Harness Engineering」記事、Anthropic公式のClaude Codeドキュメントが一次情報として最良です。日本語ではFindy Team・サーバーワークスエンジニアブログ・Zennの記事群が実務目線で参考になります。

まとめ|AI時代のエンジニアリングの新しい層

ここで覚えてほしい一言

AIモデルの賢さは外から借りる時代。差別化はハーネス設計の質で決まる。

ハーネスエンジニアリングは、プロンプトエンジニアリング・コンテキストエンジニアリングに続く「AI駆動開発の第3の柱」です。
OpenAIやAnthropicのようなトッププレイヤーが公式に推奨し始めたことで、これからの数年でエンジニアの必須スキルになっていきます。

「賢いモデル」を選ぶだけでは、AI開発の差別化はできません。同じClaude/GPT/Codexを使っても、ハーネスの質が高い現場ほど、長時間安定して成果を出せる状況になっています。
関連記事として、Codex・Claude Code・OpenClaw・Hermes Agent・Context Engineeringを併せて読むと、AIエージェント開発の全体像がより明確になります。

まずは自分のリポジトリにAGENTS.mdを1ファイル置くところから、ハーネスエンジニアリングの第一歩を始めてみてください。


Winスクール
【初心者向け】
・20~30代におすすめ
・データ分析・AIに特化
公式サイトで無料登録する
よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

管理人のアバター 管理人 データエンジニア / ETL設計

基幹システム×データエンジニア|DataEngineerLabs運営
大手食品系の基幹システム開発を経験。人事・給与・販売管理のデータ連携、ETL設計、SQLパフォーマンスチュートリアル、バッチ保守が専門。
DataSpider実務経験。"使える状態にする"難しさを発信中

コメント

コメントする

目次