OutputFileDatasetConfig クラス

実行の出力をコピーし、FileDataset として昇格させる方法を表します。

OutputFileDatasetConfig を使用すると、コンピューティング先の特定のローカルパスを指定した宛先にアップロードする方法を指定できます。コンストラクターに引数が渡されない場合は、名前、宛先、およびローカルパスが自動的に生成されます。

引数を渡さない例を次に示します。


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

出力を作成し、出力を表形式のデータセットに昇格させ、foo という名前で登録する例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

OutputFileDatasetConfig を初期化します。

引数を渡さない例を次に示します。


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

出力を作成し、出力を表形式のデータセットに昇格させ、foo という名前で登録する例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

コンストラクター

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

パラメーター

名前	説明
name 必須	str この実行に固有の出力の名前。これは一般的に系列の目的で使用されます。 [なし] に設定すると、名前が自動的に生成されます。この名前は、出力ファイルとフォルダーを書き込み先にアップロードするローカルパスを含む環境変数にもなります。
destination 必須	tuple 出力のコピー先。 None に設定すると、パス /dataset/{run-id}/{output-name} の下の workspaceblobstore データストアに出力がコピーされます。ここで、run-id は Run の ID、出力名は上記の name パラメーターからの出力名です。変換先はタプルで、最初の項目はデータストア、2 番目の項目はデータをコピーするデータストア内のパスです。データストア内のパスには、テンプレートパスを指定できます。テンプレートパスは通常のパスに過ぎませんが、プレースホルダーが含まれています。これらのプレースホルダーは、適切なタイミングで解決されます。プレースホルダーの構文は {placeholder} です (例: /path/with/{placeholder})。現在、{run-id} と {output-name} という 2 つのプレースホルダーのみがサポートされています。
source 必須	str データのコピー元となるコンピューティング先内のパス。 [なし] に設定すると、コンピューティング先の OS 一時ディレクトリ内に作成したディレクトリに設定されます。
partition_format 必須	str パスのパーティション形式を指定します。デフォルトは「なし」です。各パスのパーティション情報は、指定された形式に基づいて列に抽出されます。書式パーツ '{column_name}' は文字列列を作成し、'{column_name:yyyy/MM/dd/HH/mm/ss}' は datetime 列を作成します。ここで、datetime 型の年、月、日、時、分、秒を抽出するために 'yyyy'、'MM'、'dd'、'hh'、'mm'、'ss' が使用されます。形式は、最初のパーティションキーの位置からファイルパスの末尾まで開始する必要があります。たとえば、パス '../Accounts/2019/01/01/data.parquet' では、パーティションが部門名と時刻によって指定されます。partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' は、値 'Accounts' を持つ文字列列 'Department' と値 '2019-01-01' を持つ datetime 列 'PartitionDate' を作成します。
name 必須	str この実行に固有の出力の名前。これは一般的に系列の目的で使用されます。 [なし] に設定すると、名前が自動的に生成されます。この名前は、出力ファイルとフォルダーを書き込み先にアップロードするローカルパスを含む環境変数にもなります。
destination 必須	tuple 出力のコピー先。 None に設定すると、パス /dataset/{run-id}/{output-name} の下の workspaceblobstore データストアに出力がコピーされます。ここで、run-id は Run の ID、出力名は上記の name パラメーターからの出力名です。変換先はタプルで、最初の項目はデータストア、2 番目の項目はデータをコピーするデータストア内のパスです。データストア内のパスには、テンプレートパスを指定できます。テンプレートパスは通常のパスに過ぎませんが、プレースホルダーが含まれています。これらのプレースホルダーは、適切なタイミングで解決されます。プレースホルダーの構文は {placeholder} です (例: /path/with/{placeholder})。現在、{run-id} と {output-name} という 2 つのプレースホルダーのみがサポートされています。
source 必須	str データのコピー元となるコンピューティング先内のパス。 [なし] に設定すると、コンピューティング先の OS 一時ディレクトリ内に作成したディレクトリに設定されます。
partition_format 必須	str パスのパーティション形式を指定します。デフォルトは「なし」です。各パスのパーティション情報は、指定された形式に基づいて列に抽出されます。書式パーツ '{column_name}' は文字列列を作成し、'{column_name:yyyy/MM/dd/HH/mm/ss}' は datetime 列を作成します。ここで、datetime 型の年、月、日、時、分、秒を抽出するために 'yyyy'、'MM'、'dd'、'hh'、'mm'、'ss' が使用されます。形式は、最初のパーティションキーの位置からファイルパスの末尾まで開始する必要があります。たとえば、パス '../Accounts/2019/01/01/data.parquet' では、パーティションが部門名と時刻によって指定されます。partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' は、値 'Accounts' を持つ文字列列 'Department' と値 '2019-01-01' を持つ datetime 列 'PartitionDate' を作成します。

注釈

OutputFileDatasetConfig は、実行に引数として渡すことができます。これは、コンピューティング上のローカルパスに自動的に変換されます。ソース引数が指定されている場合は、ソース引数が使用されます。それ以外の場合は、OS の一時フォルダーにディレクトリが自動的に生成されます。ソースディレクトリ内のファイルとフォルダーは、出力構成に基づいてコピー先にコピーされます。

既定では、出力がコピー先ストレージにコピーされるモードはマウントに設定されます。マウントモードの詳細については、as_mountのドキュメントを参照してください。

メソッド

as_input

後続のパイプラインステップで、出力を入力として使用する方法を指定します。

as_mount

マウントする出力のモードを設定します。

マウントモードの場合、出力ディレクトリは FUSE マウントディレクトリになります。マウントされたディレクトリに書き込まれたファイルは、ファイルが閉じられるとアップロードされます。

as_upload

アップロードする出力のモードを設定します。

アップロードモードの場合、出力ディレクトリに書き込まれたファイルはジョブの最後にアップロードされます。ジョブが失敗した場合、または取り消された場合、出力ディレクトリはアップロードされません。

as_input

後続のパイプラインステップで、出力を入力として使用する方法を指定します。

as_input(name=None)

パラメーター

名前	説明
name 必須	str 実行に固有の入力の名前。

戻り値

型	説明
DatasetConsumptionConfig	入力データを配信する方法を説明する DatasetConsumptionConfig インスタンス。

as_mount

マウントする出力のモードを設定します。

as_mount(disable_metadata_cache=False)

パラメーター

名前	説明
disable_metadata_cache 必須	bool メタデータをローカルノードにキャッシュするかどうか。無効にした場合、ノードはジョブの実行中に他のノードから生成されたファイルを表示できません。

戻り値

型	説明
OutputFileDatasetConfig	マウントするモードが設定された OutputFileDatasetConfig インスタンス。

as_upload

アップロードする出力のモードを設定します。

as_upload(overwrite=False, source_globs=None)

パラメーター

名前	説明
overwrite 必須	bool コピー先に既に存在するファイルを上書きするかどうかを指定します。
source_globs 必須	list[str] アップロードされるファイルをフィルター処理するために使用される Glob パターン。

戻り値

型	説明
OutputFileDatasetConfig	アップロードするモードが設定された OutputFileDatasetConfig インスタンス。

次の方法で共有

OutputFileDatasetConfig クラス

コンストラクター

パラメーター

注釈

メソッド

as_input

パラメーター

戻り値

as_mount

パラメーター

戻り値

as_upload

パラメーター

戻り値

フィードバック