次の方法で共有


ラベル付き Azure Machine Learning データセットを作成して探索する

重要

この記事では、Azure Machine Learning SDK v1 の使用に関する情報を提供します。 SDK v1 は、2025 年 3 月 31 日の時点で非推奨です。 サポートは 2026 年 6 月 30 日に終了します。 SDK v1 は、その日付までインストールして使用できます。

2026 年 6 月 30 日より前に SDK v2 に移行することをお勧めします。 SDK v2 の詳細については、「 Azure Machine Learning CLI と Python SDK v2 とは」 および SDK v2 リファレンスを参照してください

この記事では、Azure Machine Learning データ ラベル付けプロジェクトからデータ ラベルをエクスポートし、データ探索用の pandas データフレームなどの一般的な形式に読み込む方法について説明します。

ラベル付きデータセットとは

ラベル付きの Azure Machine Learning データセットは、ラベル付きデータセットと呼ばれています。 これらの特定のデータセットは、専用のラベル列を持つ TabularDataset であり、Azure Machine Learning データのラベル付けプロジェクトの出力としてのみ作成されます。 画像のラベル付けテキストのラベル付けのためのデータ ラベル付けプロジェクトを作成します。 Machine Learning では、画像の分類 (複数ラベルまたは多クラス) のほか、境界ボックスと組み合わせたオブジェクトの識別でデータ ラベル付けプロジェクトをサポートしています。

前提条件

データ ラベルをエクスポートする

データのラベル付けプロジェクトを完了したら、ラベル付けプロジェクトからラベル データをエクスポートできます。 そうすることで、データとそのラベルの両方への参照をキャプチャし、COCO 形式で、または Azure Machine Learning データセットとしてエクスポートすることができます。

ラベル付けプロジェクトの [プロジェクトの詳細] ページにある [エクスポート] ボタンを使用します。

スタジオ UI の [エクスポート] ボタン

COCO

COCO ファイルは、Azure Machine Learning ワークスペースの既定の BLOB ストアにある export/coco 内のフォルダーに作成されます。

オブジェクト検出プロジェクトでは、COCO ファイルにエクスポートされた bbox: [x,y,width,height] 値が正規化されます。 これらは 1 にスケーリングされます。 たとえば、640 x 480 ピクセルの画像では、(10, 10) の位置 (幅 30 ピクセル、高さ 60 ピクセル) の境界ボックスには、(0.015625. 0.02083, 0.046875, 0.125) という注釈が付けられます。 座標は正規化されるため、すべての画像の "幅" と "高さ" として "0.0" と表示されます。 実際の幅と高さは、OpenCV や Pillow (PIL) などの Python ライブラリを使用して取得できます。

Azure Machine Learning のデータセット

エクスポートした Azure Machine Learning データセットには、Azure Machine Learning Studio の [データセット] セクションでアクセスできます。 また、データセットの [詳細] ページには、Python からラベルにアクセスするためのサンプル コードも用意されています。

エクスポートされたデータセット

ヒント

ラベル付きデータを Azure Machine Learning データセットにエクスポートしたら、AutoML を使用して、ラベル付けされたデータでトレーニングされたコンピューター ビジョン モデルを構築できます。 詳しくは、Python で Computer Vision モデルをトレーニングするための AutoML の設定に関する記事をご覧ください

Pandas データフレームを使用してラベル付けされたデータセットを探索する

ラベル付きデータセットを pandas データフレームに読み込み、to_pandas_dataframe() クラスの azureml-dataprep メソッドを使用してデータ探索に一般的なオープンソース ライブラリを使用します。

次のシェル コマンドを使用して、このクラスをインストールします。

pip install azureml-dataprep

次のコードでは、animal_labels データセットは、以前にワークスペースに保存されたラベル付けプロジェクトからの出力です。 エクスポートされたデータセットは TabularDataset です。

適用対象:Azure Machine Learning SDK v1 for Python

import azureml.core
from azureml.core import Dataset, Workspace

# get animal_labels dataset from the workspace
animal_labels = Dataset.get_by_name(workspace, 'animal_labels')
animal_pd = animal_labels.to_pandas_dataframe()

次のステップ