RAG自動評価ツール
di BELL DATA, Inc.
RAGチャットボットの品質改善を支援し、生成AI活用を「実験と比較」に変える管理者向け評価ツール
LLM-as-a-Judge による RAG自動評価ツール
「LLM-as-a-Judge による RAG自動評価ツール」は、Azure OpenAI と Azure AI Search を活用した RAG(Retrieval-Augmented Generation)型チャットボットの品質を、検索・回答・応答速度の観点から定量的に評価するためのツールです。
生成AIチャットボットの運用において、「検索は本当に適切か」「回答品質は改善しているのか」「設定変更の効果をどう説明するか」といった課題に対し、
LLMを評価者(Judge)として活用することで、人手に頼らない客観的な評価を実現します。RAG改善を“勘や経験”ではなく、“実験と比較”に基づいて判断できる評価基盤を提供します。
サービスの特長
1. LLMを評価者としたRAG自動評価(LLM-as-a-Judge)
本ツールでは、回答生成に利用するLLMとは別に、評価専用のLLMを「第三者評価者」として使用します。
これにより、
-
回答内容の正確性・関連性
-
検索結果(Retrieval)の妥当性
-
応答速度(レイテンシ)
を同一基準で自動評価し、RAG構成の違いによる品質差を客観的に把握できます。
2. RAG検索方式・モデル差分の定量比較
Azure AI Search を用いた以下の検索方式に対応しています。
Vector検索(Similarity Search)
キーワード検索(BM25)
Hybrid検索 + Semantic Ranker
3. 評価用QAテストケースの自動生成
評価に必要なQAテストケースは、アップロードした文書(PDF / TXT)から自動生成されます。
自動生成された評価用QAセット
既存FAQや想定問答をJSONで持ち込む評価
の両方に対応し、評価データ作成の手間を大幅に削減します。
モデル、Embedding、検索方式、パラメータの違いによる影響を数値と可視化で比較でき、「どの構成が本当に良いのか」を検証可能です。
ご提供機能
-
文書(PDF / TXT)のアップロードと解析
-
評価用QAセットの自動生成
-
RAGによる回答生成
-
LLM-as-a-Judgeによる自動評価
-
回答品質・検索妥当性・レイテンシの集計
-
評価結果のテーブルおよび可視化
導入支援内容
- ツールの動作環境構築支援(Azureを使用)
活用シーン
Azure AI Search のインデックス設計・検索方式検証
モデル・Embedding選定の評価
リリース前の品質チェック