Ichizoku is an official partner of Arize in Japan

LLMエバリュエーションとベンチマークでRAGを評価する方法

03/29/2024

先日、Arize AI主催のワークショップ「RAG Time」に参加しました。

そこでは『LLM Evals と BenchmarkingでRAGを評価する』というタイトルのワークショップに参加しました。

アンバー・ロバーツ氏（Arize AIの機械学習グロースリード）とミキョー・キング氏（Arize AIのオープンソース責任者）が主催したこの講演は、重要な研究分野についての貴重な洞察を提供してくれました。

LlamaIndexを使用したRAGパイプラインの構築からPhoenixを活用した応答評価までをカバーするコードアロングエクササイズとともに、主な学びと収穫をご紹介します。

検索拡張生成（RAG）とは何か？

RAG (Retrieval-Augmented Generation)は、元の学習データソースを超えた権威ある知識ベースを活用することで、言語モデルの出力を強化します。

これにより、モデルは生成プロセス中に外部情報を参照して応答を改良します。

下図は、RAGがどのように機能するかを示しています。

RAGは、特定のドメインや組織内部の知識リポジトリに対応するために、LLMの既存の堅牢な機能を強化します。

RAGは、LLMの出力を強化し、その関連性、正確性、およびさまざまなシナリオでの有用性を確保するためのコスト効率の高い方法を提供します。

RAGの長所には、独自のデータを活用することでLLMアプリケーションのパフォーマンスを向上させ、継続的な進歩の恩恵を受けて結果を改善することが挙げられます。

一方短所としては、RAGワークフローのトラブルシューティングに時間がかかる可能性があることと、システムが適切に監視されない場合に複数の障害が発生するリスクがあることが挙げられます。

RAG構築における重要なステップ

RAGには5つの重要な段階があり、これらは大規模なRAG構築の一部となります。

この段階では、テキストファイル、PDF、Webサイト、DB、APIなどの多様なソースからデータを収集し、パイプラインに統合します。

Indexing

ベクトル埋め込み、数値データ表現、文脈情報検索の精度を向上させるためのメタデータ戦略の活用によって、LLMに堅牢なデータ構造を構築します。

Storing

インデックスの再作成を防ぎ、効率的なデータ検索を実現するためには、最初のインデックス作成後にインデックスとそのメタデータを保存することが重要です。

Querying

サブクエリ、マルチステップクエリ、ハイブリッドアプローチなど、様々なクエリ手法を活用し、LLMとデータ構造を選択したインデックス戦略に統合します。

Evaluation

代替案や修正案に対するアプローチの有効性を測定し、レスポンスの正確さとスピードに関する客観的な指標を提供するため、どのパイプラインにおいても極めて重要です。

LlamaIndexを使用してRAGパイプラインを構築する方法

RAGの仕組みと段階は理解できましたか？

それでは実際に、LlamaIndexを使ってRAGパイプラインを構築し、大規模な言語モデルの評価にPhoenix Evalsを使ってみましょう。

OpenAIのキーをお持ちの方は、こちらのGoogle Colabをチェックして、このデモを使ってみてください。

ライブラリのインストール

インストールされたライブラリをインポートする

nest_asyncioモジュールは、すでに実行されている非同期ループの中に非同期関数を入れ子にすることができます。Jupyterノートブックは本質的に非同期ループで動作するため、これは必要です。nest_asyncioを適用することで、競合することなく、既存のループ内で追加の非同期関数を実行できます。

Phoenixアプリケーションの起動

この実装を通して、Phoenixトレースを使用してRAGパイプラインの評価に必要なすべてのデータを取得します。これを有効にするには、Phoenixアプリケーションを起動し、LlamaIndexを計測するだけです。

これは自分のインスタンスでサーバを実行しブラウザ上でLlamaIndexのset_global_handler(“arize_phoenix”)を使ってArize Phoenixにすべての情報を設定しています。

OpenAIは、合成データの作成や評価に使用する予定です。

インデックスのダウンロード、ロード、構築

ポール・グラハムのエッセイを使ってRAGパイプラインを構築して見ましょう。

LlamaIndexを使ってエッセイを解析し、chunk_sizeが512のドキュメントのチャンクを作り、それを埋め込みます。

次に、クエリを実行できるように、ローカルファイルをVectorStoreIndexとして保存します。

QueryEngineを構築し、クエリーを開始する

クエリーから得られるレスポンスをチェックし、それが私たちが探しているユースケースに合わせたものであることに気づくことができます。

『著者は短編小説を書き、プログラミングに取り組み、特に9年生の時にはIBM 1401コンピューターを使っていました。』

Phoenixサーバーに向かうと、クエリーとレスポンス、入力と出力が表示されます。

Phoenixは内部状態もトレースし、コサイン類似度、ドキュメントチャンク、メタデータを表示します。

しかし、LlamaIndexを使って1番目と2番目のtextnodesにあるテキストを取得したい場合は、以下のコードブロックを使うことができます。

get_span_dataframe()を使用して、Phoenixセッションからスパンを直接取得することで、トレースにアクセスすることができます。

ドキュメントのあるデータフレームに絞り込むことができます。

これで、RAGパイプラインを構築し、Phoenixを使って計測することができました。

次に、RAGのパフォーマンスを評価していきましょう。

RAGの評価

RAGアプリケーションの評価は、重要な指標として機能します。

様々なデータソースやクエリータイプを考慮し、パイプラインによって生成されたレスポンスの精度を評価します。

個々のクエリやレスポンスを分析することは価値がありますが、エッジケースや障害の数が増えるにつれて困難になります。より実用的なアプローチには、一連のメトリクスと自動化された評価の実装が含まれます。これらのツールは、システムの全体的なパフォーマンスに関する洞察を提供し、さらなる調査が必要な領域をピンポイントで特定することができます。

RAGシステム評価は、2つの重要な側面に焦点を当てています。これらをご紹介しましょう。