Azure AI / Azure OpenAI のロゴ

Azure AI / Azure OpenAI / 公式ブログ / 2026/05/29 / 通常

Azure AI Search、language analyzer選定をRAG品質の設計論点として解説

AI

公式ブログ原文

Microsoft Foundry Blog は 2026年5月29日、Azure AI Search で language analyzer をどう選ぶべきかを解説しました。Language analyzer は、対象言語のルールに基づいて lexical analysis を行う text analyzer であり、検索品質や RAG の retrieval 品質に直結する設定です。

要点

  • language analyzer は、単語分割、正規化、語形変化の扱いなど、検索一致の前処理を左右する
  • Azure AI Search や RAG では、モデルやプロンプト以前に retrieval の品質が重要になる
  • 多言語コンテンツや日本語・英語混在の社内文書では、analyzer 選定の影響が大きい
  • field ごとに analyzer を設計し、評価クエリで比較する必要がある

今回のブログ記事で語られていること

この記事は、Azure AI Search の地味だが重要な設定である language analyzer を扱っています。RAG や enterprise search では、LLM の回答品質が注目されがちですが、そもそも検索で適切な文書が取れていなければ、モデルは正しい回答を作れません。Analyzer はその検索結果の土台です。

Language analyzer は、言語ごとの形態や語彙のルールに合わせて、テキストを検索しやすい単位に分解します。英語、フランス語、日本語、中国語などでは、単語境界、語形変化、複合語、記号、数字、固有名詞の扱いが違います。標準 analyzer のままで十分な場合もありますが、言語特性が強いデータや専門用語の多いデータでは、検索漏れや過剰一致の原因になります。

実務では、ひとつの index 全体に同じ考え方を当てるのではなく、field ごとに設計する必要があります。製品名、ドキュメント本文、タイトル、タグ、コード片、ID、型番では、検索したい振る舞いが異なります。たとえば本文には言語 analyzer が有効でも、ID や product code には余計な分割を避けたい場合があります。

RAG の観点では、analyzer は embedding や reranking とも切り離せません。Keyword search、semantic search、hybrid retrieval を組み合わせるとき、どの field がどの analyzer で処理されるかによって、候補文書の集まり方が変わります。回答生成の前段で retrieval recall が落ちている場合、prompt を直すだけでは改善しません。

実務で確認したいポイント

まず、検索対象の言語構成を把握してください。日本語だけなのか、英語だけなのか、日本語・英語・コード・製品名が混在するのかで analyzer の選び方は変わります。

次に、実際の問い合わせログや想定質問を使って、analyzer 別に上位検索結果を比較します。RAG の評価では、回答文だけでなく、取得された chunks が正しいか、取りこぼしがないかを見ることが重要です。

結局、このブログ記事をどう読むべきか

Azure AI Search の language analyzer は、設定項目としては小さく見えますが、RAG 品質の土台です。検索精度に課題があるチームは、モデルや prompt の前に、index 設計、field 設計、analyzer 選定を見直す価値があります。