Google Gemini のロゴ

Google Gemini / リリースノート / 2026/05/05 / 重要

Google Gemini API 2026年5月5日のリリースノート解説: File Search のマルチモーダル対応

AIapisearch

公式リリースノート

Gemini API changelog では 2026年5月5日、File Search がマルチモーダル検索に対応したことが案内されました。画像を gemini-embedding-2 で埋め込み、検索対象にできるようになり、grounding metadata には visual citations 用の media_id と、根拠位置を示す page_numbers が含まれるようになります。

要点

  • Gemini API File Search が画像を含むマルチモーダル検索に対応した
  • gemini-embedding-2 を使って画像を native に embed / search できる
  • grounding metadata に media_id が入り、visual citations を扱いやすくなる
  • page_numbers により、PDFや長い資料の根拠ページを示しやすくなる
  • RAGを文書検索から画像・PDF混在の業務検索へ広げる更新

今回の更新で変わること

従来のRAGはテキスト中心になりがちでしたが、実際の業務資料には画像、図表、スクリーンショット、設計図、PDFが混在します。File Search が画像を検索対象にできるようになると、マニュアル、研究資料、デザイン資料、商品カタログ、技術文書などをより自然に扱えます。

引用情報の強化も重要です。回答が正しく見えても、どの画像やどのページを根拠にしたのかが追えないと、社内利用や監査には乗せにくくなります。media_idpage_numbers は、回答根拠を検証するための手がかりになります。

実務で確認したいポイント

まず、取り込むファイルの粒度とメタデータ設計を見直します。画像やPDFをそのまま入れるだけでなく、部署、公開範囲、文書種別、更新日などを付けておくと検索品質と権限管理を両立しやすくなります。

次に、引用表示のUIを確認します。ページ番号や画像への参照をユーザーが確認できる形にしないと、grounding metadata の価値を活かしきれません。

結局、この更新をどう見るべきか

5月5日の changelog は、Gemini API のRAG基盤を実務データに近づける更新です。テキストだけでなく、画像やPDFの根拠まで扱う必要があるチームには重要度が高い変更です。