ローカルLLM vs Claude、品質・コスト・信頼性を27タスクで徹底比較してみた結果

Contents

🔥 ローカルLLMは「本番エージェント」として戦えるのか？
📊 ベンチマーク結果をざっくりまとめると
🛠️ 「ツール呼び出しタグの漏れ」って何が起きてるの？
💡 日本語圏の開発者が気をつけるべきポイント
まとめ

🔥 ローカルLLMは「本番エージェント」として戦えるのか？

AI benchmark comparison / Photo by Pavel Danilyuk via Pexels

「ローカルLLMってコスト安いのはわかるけど、実際の品質はどうなの？」そんな疑問、持っている方も多いんじゃないでしょうか。

海外の開発者が、自作のLangGraphエージェント（約90ツールを持つ本格的なもの）を使って、qwen3-coder:30b（RTX 3090で動作）とClaude（APIで本番利用）を同一タスク27件で比較した結果が話題になっています。結論を先に言うと、「どちらが優れているか」は一言では答えられない、かなり複雑な結果でした。

📊 ベンチマーク結果をざっくりまとめると

まずは3つの軸での比較を見てみましょう。

✅ 品質スコア：Claude 89.4点 vs qwen 22.8点（100点満点）
💰 コスト：qwen はClaudeの約5,150分の1（$0.00015 vs $0.763 per task）
⚠️ 信頼性：qwen はツール呼び出しタグの漏れが26%のタスクで発生

品質の差は歴然ですが、コスト差も桁違いです。イメージとしては、「めちゃくちゃ安いけど2〜3回に1回はミスをする新人スタッフ」対「少し高いけど確実に仕事をこなすベテラン」みたいな感じですね。

🛠️ 「ツール呼び出しタグの漏れ」って何が起きてるの？

ローカルLLMを使うとき、特にエージェント系のシステムでよく問題になるのが出力フォーマットの崩れです。LangGraphのようなエージェントは、LLMが「どのツールをどんな引数で呼ぶか」を決めるために、JSON形式や特定のタグを使ったフォーマットで出力してもらう必要があります。

qwen3-coderはこの部分が不安定で、タグがそのまま回答テキストに漏れ出してしまうケースが26%もあったそうです。

具体的なイメージとしては、以下のような出力が混入してしまうイメージです👇

# 正常な出力（LangGraphが期待するもの）
{
  "tool": "web_search",
  "args": {"query": "最新のPythonバージョン"}
}

# qwen3-coderで崩れた例（タグが漏れ出す）
<tool_call>
{"tool": "web_search", "args": {"query": "最新のPythonバージョン"}}
</tool_call>
最新のPythonバージョンは...  # ← ここに余計なテキストが混ざる

ここが重要です。エージェントシステムではLLMの出力をパースして次のアクションを決めるため、フォーマットが崩れるとパースエラー＝タスク失敗になります。つまり品質スコア以前の問題として「そもそも動かない」ケースが多発してしまうんですよね。