Palantir / リリースノート / 2026/06/09 / 通常

Palantir Foundry、Faster pipelines で media sets を入力として利用可能に

AIdataworkflow

公式リリースノート

公式リリースノート: Palantir Foundry announcements

Palantir Foundry Announcements では 2026年6月9日、Faster パイプラインが media sets を入力として受け付けるようになったことが案内されました。PDF、画像、音声ファイルを構造化データへ変換し、下流の抽出や分析へつなげる更新です。

要点

Faster パイプラインが media sets を入力として扱えるようになった
PDF、画像、音声ファイルを処理し、downstream extraction に使える structured data へ変換できる
非構造データを Foundry のデータ処理フローへ入れる導線が広がる
権限、データ分類、抽出品質、監査ログを確認したい

今回の発表で語られていること

今回の更新は、Foundry のパイプラインが扱える入力データの範囲を広げるものです。従来の表形式データや既存データセットだけでなく、PDF、画像、音声のような media sets を Faster パイプラインの入力として処理できるようになると、文書、画像、録音、スキャン資料などを構造化データへ変換し、下流の抽出・検索・分析へ渡しやすくなります。

実務で重要なのは、media data が通常の表データより扱いに注意を要する点です。PDF には契約書、申請書、報告書、手書きメモが含まれることがあります。画像には個人情報や機密設備が写る可能性があり、音声には本人情報やセンシティブな会話が含まれることがあります。Faster パイプラインで処理できるようになるほど、入力時点の分類、アクセス制御、保持期間、抽出結果の確認が重要になります。

また、非構造データから structured data を作る場合、抽出品質の評価が欠かせません。OCR、音声認識、document parsing、entity extraction は、データ形式や言語、ノイズ、レイアウトによって精度が変わります。下流の AIP、Ontology、ダッシュボード、業務アプリで使う前に、誤抽出、欠落、重複、単位や日付の誤認識を検証する必要があります。

media sets を Faster パイプラインの入力として扱えるようになることは、画像、動画、音声、文書などのメディアデータを Foundry のパイプライン処理に組み込みやすくする更新です。従来の構造化データだけでなく、メディアファイルを分析・AI処理・品質確認の対象にするユースケースでは、入力としての扱いが標準化されているかどうかが重要になります。

実務では、メディアデータのサイズ、フォーマット、メタデータ、権限、保持期間、処理結果の保存先を確認する必要があります。Faster パイプラインに入れられるからといって、すべてのメディア処理が自動で簡単になるわけではありません。取り込み後にどの変換を行うのか、失敗ファイルをどう扱うのか、下流のモデルやレビュー画面とどうつなぐのかを設計する必要があります。今回の更新は、Foundry 上で非構造データを本格的なパイプライン資産として扱うための入口として読むべきです。

実務で確認したいポイント

media sets に含まれる PDF、画像、音声のデータ分類とアクセス権を確認する
抽出結果をどのデータセット / Ontology / downstream ワークフローへ渡すかを設計する
OCR や音声認識の品質評価セットを用意し、誤抽出時のレビュー手順を決める
media と抽出済み structured data の保持期間、監査ログ、削除手順をそろえる

どう読むべきか

この更新は、Foundry で非構造データを扱う入口を広げるものです。AI 抽出や業務自動化に使いやすくなる一方で、media data の権限、品質、監査をパイプライン設計に組み込む必要があります。