RAGを本番運用へ！評価・監視・セキュリティまで押さえるべきポイントを解説

「RAGシステムって作れたけど、本番で使えるレベルにするにはどうすればいいの？」

そんな疑問を持っている方、多いんじゃないでしょうか。開発環境でとりあえず動くものを作るのと、実際のユーザーが使う本番環境で安定稼働させるのとでは、求められるものがまったく違いますよね。

今回は、RAGシステムを本番レベルに引き上げるために必要な評価（Evals）・オブザーバビリティ（Observability）・セキュリティといったテーマを、実践的な視点でわかりやすく解説します 🚀

Contents

RAGの「動く」と「使える」は別物
本番RAGの3本柱
まとめ

RAGの「動く」と「使える」は別物

AI production system / Photo by Freek Wolsink via Pexels

RAG（Retrieval-Augmented Generation）は、外部データベースから関連情報を検索し、それをLLMへの入力に組み合わせて回答を生成する仕組みです。開発環境で試すだけなら、pgvectorやGeminiを使って比較的すぐに動くものが作れます。

でも本番運用となると、こんな問いに答えられなければいけません。

🔍 回答の品質をどうやって測定する？
📊 システムの動きをどうリアルタイムで把握する？
🔒 悪意のある入力やプロンプトインジェクションにどう対処する？
⚡ スケールしたときにパフォーマンスは保てる？

これらが「本番RAG」に立ちはだかる壁です。

本番RAGの3本柱

① 評価（Evals）

RAGの品質を客観的に測るのが評価（Evals）です。イメージとしては、「検索してきた情報が本当に使えているか」「回答が事実に基づいているか」をスコアで確認するテストのようなものです。

よく使われる評価指標はこちら。

Faithfulness（忠実性）：回答がソース文書に忠実かどうか
Answer Relevancy（回答の関連性）：質問に対して的外れでないか
Context Recall（文脈の再現率）：必要な情報をちゃんと拾えているか

Pythonでシンプルな評価ループを書くとこんな感じです。

# RAG評価の超シンプルな例
def evaluate_rag_response(question, retrieved_docs, answer):
    # 回答がドキュメントの内容を使っているか確認
    doc_texts = " ".join([doc["content"] for doc in retrieved_docs])
    
    # ここでLLMを使って忠実性をスコアリングする（概念例）
    faithfulness_prompt = f"""
    以下の回答は、提供されたドキュメントに基づいていますか？
    
    ドキュメント: {doc_texts[:500]}
    回答: {answer}
    
    スコア（0〜1）と理由を返してください。
    """
    return faithfulness_prompt  # 実際はLLMにこれを渡す

# 使い方イメージ
question = "pgvectorとは何ですか？"
docs = [{"content": "pgvectorはPostgreSQLの拡張機能でベクトル検索が可能です"}]
answer = "pgvectorはPostgreSQLでベクトル検索を行う拡張機能です"

prompt = evaluate_rag_response(question, docs, answer)
print("評価プロンプト生成完了 ✅")

ポイントをまとめるとこんな感じです。