AIエージェントに決定論的ガードレールが必要な理由と、数行で実装する方法

「AIエージェントに自由にツールを使わせたら、とんでもないことをやらかした…」そんな経験、あるいは想像してドキッとした方、多いんじゃないでしょうか。😅

LLM（大規模言語モデル）にシェルやパッケージマネージャー、ウォレット、メールアカウントなどの「本物のツール」を渡した瞬間、デモでは見せてもらえなかった怖い問題が顔を出します。

Contents

AIエージェントが引き起こす「あるある」危険事例
「確率的な判断」に「決定論的な壁」を組み合わせる
Pythonで数行だけ書いてみる
「AIを信頼しないのか？」ではなく「AIを安全に使う」という発想
まとめ

AIエージェントが引き起こす「あるある」危険事例

AI safety guardrail / Photo by Soma Stilling via Pexels

具体的にどんなことが起きるのか、代表的なケースを見てみましょう。

🚨 スロップスクワッティング（Slopsquatting）：AIが存在しないパッケージ名を自信満々に hallucinate し、pip install を実行。攻撃者がそのパッケージ名をあらかじめマルウェア入りで登録していて感染するケース
📧 勝手にメール送信：「下書きして」と頼んだのに、エージェントが自己判断で送信ボタンを押す
🗑️ ファイルの大量削除：「このフォルダを整理して」という指示を文字通りに解釈して消しまくる
💸 想定外のAPI課金：ループ処理の中でAPIを無制限に叩き続けてコストが爆発する

共通しているのは、「エージェントが確信を持って、誰も見ていない瞬間に、素早く実行してしまう」という点です。怖いですよね。

「確率的な判断」に「決定論的な壁」を組み合わせる

LLMの判断はあくまでも確率的です。つまり「たぶん大丈夫」の積み重ねで動いています。

これに対して有効なのが決定論的ガードレール（Deterministic Guardrails）という考え方です。

イメージとしては、「AIが何をしようとしているかを、コードで機械的にチェックする門番」を設けるイメージです。AIの判断を信頼しながらも、特定の危険なアクションだけは問答無用でブロックする仕組みです。

Pythonで数行だけ書いてみる

実際にシンプルなガードレール関数を書いてみましょう。ポイントはシンプルに保つことです。

import re

# ブロックしたいコマンドのパターンリスト
DANGEROUS_PATTERNS = [
    r"pip install",        # 未知パッケージのインストールを防ぐ
    r"rm -rf",             # 再帰的削除を防ぐ
    r"send_email",         # メール誤送信を防ぐ
    r"DELETE FROM",        # DBの全削除を防ぐ
]

def check_guardrail(command: str) -> bool:
    """
    コマンドが危険なパターンに一致するか確認する。
    True = 安全（実行OK）
    False = 危険（ブロック）
    """
    for pattern in DANGEROUS_PATTERNS:
        if re.search(pattern, command, re.IGNORECASE):
            print(f"🚫 ガードレール発動：'{pattern}' が検出されました。実行をブロックします。")
            return False  # 実行しない
    return True  # 安全

# --- エージェントのツール実行ラッパー ---
def safe_execute(command: str):
    if not check_guardrail(command):
        # ログを残す・人間に通知する処理もここで行う
        return {"error": "Action blocked by guardrail"}

    # ここで実際のコマンド実行処理を行う
    print(f"✅ 実行します：{command}")
    # execute(command)  # 実際の実行関数

# テスト
safe_execute("pip install some-hallucinated-package")
safe_execute("ls -la /tmp")

ポイントをまとめるとこんな感じです👇