重要
この記事では、Azure Machine Learning SDK v1 の使用に関する情報を提供します。 SDK v1 は、2025 年 3 月 31 日の時点で非推奨です。 サポートは 2026 年 6 月 30 日に終了します。 SDK v1 は、その日付までインストールして使用できます。
2026 年 6 月 30 日より前に SDK v2 に移行することをお勧めします。 SDK v2 の詳細については、「 Azure Machine Learning CLI と Python SDK v2 とは」 および SDK v2 リファレンスを参照してください。
この記事では、Azure Machine Learning データ ラベル付けプロジェクトからデータ ラベルをエクスポートし、データ探索用の pandas データフレームなどの一般的な形式に読み込む方法について説明します。
ラベル付きデータセットとは
ラベル付きの Azure Machine Learning データセットは、ラベル付きデータセットと呼ばれています。 これらの特定のデータセットは、専用のラベル列を持つ TabularDataset であり、Azure Machine Learning データのラベル付けプロジェクトの出力としてのみ作成されます。 画像のラベル付けやテキストのラベル付けのためのデータ ラベル付けプロジェクトを作成します。 Machine Learning では、画像の分類 (複数ラベルまたは多クラス) のほか、境界ボックスと組み合わせたオブジェクトの識別でデータ ラベル付けプロジェクトをサポートしています。
前提条件
- Azure サブスクリプション。 Azure サブスクリプションがない場合は、開始する前に無料アカウントを作成してください。
- Azure Machine Learning SDK for Python、または Azure Machine Learning Studio へのアクセス。
- Machine Learning ワークスペース。 「ワークスペース リソースの作成」を参照してください。
- Azure Machine Learning データのラベル付けプロジェクトへのアクセス。 ラベル付けプロジェクトがない場合は、最初に画像のラベル付けやテキストのラベル付けのためのものを作成します。
データ ラベルをエクスポートする
データのラベル付けプロジェクトを完了したら、ラベル付けプロジェクトからラベル データをエクスポートできます。 そうすることで、データとそのラベルの両方への参照をキャプチャし、COCO 形式で、または Azure Machine Learning データセットとしてエクスポートすることができます。
ラベル付けプロジェクトの [プロジェクトの詳細] ページにある [エクスポート] ボタンを使用します。
COCO
COCO ファイルは、Azure Machine Learning ワークスペースの既定の BLOB ストアにある export/coco 内のフォルダーに作成されます。
注
オブジェクト検出プロジェクトでは、COCO ファイルにエクスポートされた bbox: [x,y,width,height]
値が正規化されます。 これらは 1 にスケーリングされます。 たとえば、640 x 480 ピクセルの画像では、(10, 10) の位置 (幅 30 ピクセル、高さ 60 ピクセル) の境界ボックスには、(0.015625. 0.02083, 0.046875, 0.125) という注釈が付けられます。 座標は正規化されるため、すべての画像の "幅" と "高さ" として "0.0" と表示されます。 実際の幅と高さは、OpenCV や Pillow (PIL) などの Python ライブラリを使用して取得できます。
Azure Machine Learning のデータセット
エクスポートした Azure Machine Learning データセットには、Azure Machine Learning Studio の [データセット] セクションでアクセスできます。 また、データセットの [詳細] ページには、Python からラベルにアクセスするためのサンプル コードも用意されています。
ヒント
ラベル付きデータを Azure Machine Learning データセットにエクスポートしたら、AutoML を使用して、ラベル付けされたデータでトレーニングされたコンピューター ビジョン モデルを構築できます。 詳しくは、Python で Computer Vision モデルをトレーニングするための AutoML の設定に関する記事をご覧ください
Pandas データフレームを使用してラベル付けされたデータセットを探索する
ラベル付きデータセットを pandas データフレームに読み込み、to_pandas_dataframe()
クラスの azureml-dataprep
メソッドを使用してデータ探索に一般的なオープンソース ライブラリを使用します。
次のシェル コマンドを使用して、このクラスをインストールします。
pip install azureml-dataprep
次のコードでは、animal_labels
データセットは、以前にワークスペースに保存されたラベル付けプロジェクトからの出力です。
エクスポートされたデータセットは TabularDataset です。
適用対象:Azure Machine Learning SDK v1 for Python
import azureml.core
from azureml.core import Dataset, Workspace
# get animal_labels dataset from the workspace
animal_labels = Dataset.get_by_name(workspace, 'animal_labels')
animal_pd = animal_labels.to_pandas_dataframe()