AIエージェントがツールを呼び出した証拠、本当に残せてますか？ポリシーゲートの落とし穴

「AIエージェントがファイルを書き換えた。ログも残っている。でも、ルールが適用されたのはツールが動く前？それとも後？」

この問いにすぐ答えられますか？　実はこれ、現在のAIエージェント開発における見落とされがちな盲点なんですよね。

Contents

🤖 ログがあっても「証明」にならない？
🔍 ポリシーゲートとは？
🛡️ 監査可能なエージェント設計のポイント
まとめ

🤖 ログがあっても「証明」にならない？

AI security audit / Photo by Jakub Zerdzicki via Pexels

多くのエージェントフレームワークは、こんな感じのログを出力します。

[INFO] Tool called: write_file
[INFO] Policy check: passed
[INFO] File written: output.txt

一見、問題なさそうですよね。でも、このログだけでは以下のことがまったくわからないんです。

✅ ポリシーチェックがツール実行の前に行われたのか
❌ それともツール実行後に結果を見て後付けで評価したのか
❓ そもそもチェック自体がスキップされていないか

ログはあくまで「何が起きたか」を記録するもの。「どの順番で・どの条件下で」起きたかを証明する力は弱いんです。

🔍 ポリシーゲートとは？

イメージとしては、工場の出荷検査ラインみたいなものです。製品（＝ツール呼び出し）が出ていく前に検査（＝ポリシーチェック）を通過させるのが正しい順序。でも現実には、出荷した後で書類だけ整えるケースが起きやすいんですよね。

これをコードで再現するとこんな感じです👇

# ❌ よくある「なんとなく通過」パターン
def call_tool_bad(tool_name, args):
    result = execute_tool(tool_name, args)  # まずツール実行
    if check_policy(tool_name, args):       # 後からチェック（意味なし！）
        log("Policy passed")
    return result

# ✅ 正しいポリシーゲートのパターン
def call_tool_good(tool_name, args):
    # ツール実行の前に必ずポリシーチェック
    if not check_policy(tool_name, args):
        raise PolicyViolationError(f"{tool_name} はポリシー違反です")
    
    result = execute_tool(tool_name, args)  # チェック通過後に実行
    log_with_proof(tool_name, args, result, policy_checked=True)
    return result

ポイントをまとめるとこんな感じです。