AdlaStep クラス

Azure Data Lake Analytics を使用して U-SQL スクリプトを実行する Azure ML パイプラインステップを作成します。

この AdlaStep の使用例については、ノートブックの https://aka.ms/pl-adlaを参照してください。

Azure Data Lake Analytics を使用して U-SQL スクリプトを実行する Azure ML パイプラインステップを作成します。

コンストラクター

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

パラメーター

名前	説明
script_name 必須	str [必須] `source_directory`を基準とした U-SQL スクリプトの名前。
name	str ステップの名前。指定しない場合は、 `script_name` が使用されます。規定値: None
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] 入力ポートバインドの一覧。規定値: None
outputs	list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]] 出力ポートバインドの一覧。規定値: None
params	dict 名前と値のペアのディクショナリ。規定値: None
degree_of_parallelism	int このジョブに使用する並列処理の次数。これは 0 より大きい必要があります。 0 未満に設定すると、既定値は 1 になります。規定値: None
priority	int 現在のジョブに使用する優先度の値。数値が小さい方が優先度が高くなります。既定では、ジョブの優先度は 1000 です。指定する値は 0 より大きい必要があります。規定値: None
runtime_version	str Data Lake Analytics エンジンのランタイムバージョン。規定値: None
compute_target	AdlaCompute, str [必須]このジョブに使用する ADLA コンピューティング。規定値: None
source_directory	str スクリプト、アセンブリなどを含むフォルダー。規定値: None
allow_reuse	bool 同じ設定で再実行するときに、前の結果をステップで再利用するかどうかを示します。再利用は既定で有効になっています。ステップの内容 (スクリプト/依存関係) と入力とパラメーターが変更されていない場合は、この手順の前の実行からの出力が再利用されます。ステップを再利用すると、ジョブをコンピューティングに送信する代わりに、前の実行の結果が後続のステップですぐに使用できるようになります。 Azure Machine Learning データセットを入力として使用する場合、再利用は、基になるデータが変更されたかどうかではなく、データセットの定義が変更されたかどうかによって決まります。規定値: True
version	str 手順の機能の変更を示すオプションのバージョンタグ。規定値: None
hash_paths	list 非推奨: 不要になりました。ステップの内容の変更を確認するときにハッシュするパスの一覧。変更が検出されない場合、パイプラインは前回の実行のステップの内容を再利用します。既定では、.amlignore または .gitignore にリストされているファイルを除き、 `source_directory` の内容はハッシュされます。規定値: None
script_name 必須	str [必須] `source_directory`を基準とした U-SQL スクリプトの名前。
name 必須	str ステップの名前。指定しない場合は、 `script_name` が使用されます。
inputs 必須	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] 入力ポートバインドの一覧
outputs 必須	list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]] 出力ポートバインドの一覧。
params 必須	dict 名前と値のペアのディクショナリ。
degree_of_parallelism 必須	int このジョブに使用する並列処理の次数。これは 0 より大きい必要があります。 0 未満に設定すると、既定値は 1 になります。
priority 必須	int 現在のジョブに使用する優先度の値。数値が小さい方が優先度が高くなります。既定では、ジョブの優先度は 1000 です。指定する値は 0 より大きい必要があります。
runtime_version 必須	str Data Lake Analytics エンジンのランタイムバージョン。
compute_target 必須	AdlaCompute, str [必須]このジョブに使用する ADLA コンピューティング。
source_directory 必須	str スクリプト、アセンブリなどを含むフォルダー。
allow_reuse 必須	bool 同じ設定で再実行するときに、前の結果をステップで再利用するかどうかを示します。再利用は既定で有効になっています。ステップの内容 (スクリプト/依存関係) と入力とパラメーターが変更されていない場合は、この手順の前の実行からの出力が再利用されます。ステップを再利用すると、ジョブをコンピューティングに送信する代わりに、前の実行の結果が後続のステップですぐに使用できるようになります。 Azure Machine Learning データセットを入力として使用する場合、再利用は、基になるデータが変更されたかどうかではなく、データセットの定義が変更されたかどうかによって決まります。
version 必須	str ステップの機能の変更を示すオプションのバージョンタグ。
hash_paths 必須	list 非推奨: 不要になりました。ステップの内容の変更を確認するときにハッシュするパスの一覧。変更が検出されない場合、パイプラインは前回の実行のステップの内容を再利用します。既定では、.amlignore または .gitignore にリストされているファイルを除き、 `source_directory` の内容はハッシュされます。

注釈

スクリプト で@@name@@ 構文を使用して、入力、出力、パラメーターを参照できます。

name が入力ポートまたは出力ポートバインドの名前である場合、スクリプト内で発生する@@name@@は、対応するポートバインドの実際のデータパスに置き換えられます。
name が params dict 内の任意のキーと一致する場合、@@name@@の出現は dict 内の対応する値に置き換えられます。

AdlaStep は、Data Lake Analytics アカウントの既定の Data Lake Storage に格納されているデータでのみ機能します。データが既定以外のストレージにある場合は、 DataTransferStep を使用して既定のストレージにデータをコピーします。既定のストレージを見つけるには、Azure portal で Data Lake Analytics アカウントを開き、左側のウィンドウの [設定] の [データソース] 項目に移動します。

次の例は、Azure Machine Learning パイプラインで AdlaStep を使用する方法を示しています。


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

完全なサンプルは次から入手できます https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

メソッド

create_node

AdlaStep ステップからノードを作成し、指定したグラフに追加します。

このメソッドは、直接使用するためのものではありません。この手順でパイプラインがインスタンス化されると、Azure ML は、このメソッドに必要なパラメーターを自動的に渡して、そのステップをワークフローを表すパイプライングラフに追加できるようにします。

create_node

AdlaStep ステップからノードを作成し、指定したグラフに追加します。

create_node(graph, default_datastore, context)

パラメーター

名前	説明
graph 必須	Graph グラフオブジェクト。
default_datastore 必須	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] 既定のデータストア。
context 必須	<xref:azureml.pipeline.core._GraphContext> グラフコンテキスト。

戻り値

型	説明
Node	ノードオブジェクト。

次の方法で共有

AdlaStep クラス

コンストラクター

パラメーター

注釈

メソッド

create_node

パラメーター

戻り値

フィードバック