インデックス作成プロセスを理解する

5 分

インデックス作成プロセスは、インデックス付きエンティティごとに ドキュメント を作成することによって機能します。インデックス作成中、 エンリッチメントパイプライン は、データソースのメタデータとコグニティブスキルによって抽出されたエンリッチメントされたフィールドを組み合わせたドキュメントを反復的に構築します。インデックス付きドキュメントはそれぞれ JSON 構造と考えることができます。最初は、次のように、ソースデータから直接抽出されたフィールドにマップしたインデックスフィールドを含む ドキュメント で構成されます。

文書
- メタデータ_ストレージ_ネーム
- metadata_author
- コンテンツ

データソース内のドキュメントにイメージが含まれている場合は、次のように、インデクサーを構成してイメージデータを抽出し、各イメージを normalized_images コレクションに配置できます。

文書
- metadata_storage_name
- metadata_author
- コンテンツ
- normalized_images
  - image0
  - image1

この方法で画像データを正規化すると、画像データから情報を抽出するスキルの入力として画像のコレクションを使用できます。

各スキルは ドキュメントにフィールドを追加するため、たとえば、ドキュメントが書き込まれる言語を検出するスキルは、次のように言語フィールドにその出力を格納できます。

文書
- メタデータ_ストレージ_ネーム
- metadata_author
- コンテンツ
- normalized_images
  - image0
  - image1
- 言語

ドキュメントは階層構造になっており、スキルは階層内の特定の コンテキスト に適用されるため、ドキュメントの特定のレベルで各項目のスキルを実行できます。たとえば、正規化されたイメージコレクション内の各画像に対して光学式文字認識 (OCR) スキルを実行して、含まれるテキストを抽出できます。

文書
- metadata_storage_name
- metadata_author
- コンテンツ
- normalized_images
  - image0
    - テキスト
  - image1
    - テキスト
- 言語

各スキルの出力フィールドは、パイプラインの後で他のスキルの入力として使用でき、 その出力は ドキュメント構造に格納されます。たとえば、 マージ スキルを使用して、元のテキストコンテンツと各画像から抽出されたテキストを組み合わせて、画像テキストを含むドキュメント内のすべてのテキストを含む新しい merged_content フィールドを作成できます。

文書
- メタデータストレージ名
- metadata_author
- コンテンツ
- normalized_images
  - image0
    - テキスト
  - image1
    - テキスト
- 言語
- merged_content

パイプラインの最後にある最終的なドキュメント構造のフィールドは、次の 2 つの方法のいずれかでインデクサーによってインデックスフィールドにマップされます。

ソースデータから直接抽出されたフィールドはすべて、インデックスフィールドにマップされます。これらのマッピングは 、暗黙的 (インデックス内の同じ名前のフィールド内のフィールドに自動的にマップされる) または 明示的 (多くの場合、フィールドの名前をより便利なものに変更したり、マップ時に関数をデータ値に適用したりするために、ソースフィールドとインデックスフィールドを照合するようにマッピングが定義されます) にすることができます。
スキルセット内のスキルからの出力フィールドは、出力内の階層的な場所からインデックス内のターゲットフィールドに明示的にマップされます。

インデックス作成プロセスを理解する

フィードバック