次の方法で共有


OutputFileDatasetConfig クラス

実行の出力をコピーし、FileDataset として昇格させる方法を表します。

OutputFileDatasetConfig を使用すると、コンピューティング 先の特定のローカル パスを指定した宛先にアップロードする方法を指定できます。 コンストラクターに引数が渡されない場合は、名前、宛先、およびローカル パスが自動的に生成されます。

引数を渡さない例を次に示します。


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

出力を作成し、出力を表形式のデータセットに昇格させ、foo という名前で登録する例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

OutputFileDatasetConfig を初期化します。

OutputFileDatasetConfig を使用すると、コンピューティング 先の特定のローカル パスを指定した宛先にアップロードする方法を指定できます。 コンストラクターに引数が渡されない場合は、名前、宛先、およびローカル パスが自動的に生成されます。

引数を渡さない例を次に示します。


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

出力を作成し、出力を表形式のデータセットに昇格させ、foo という名前で登録する例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

コンストラクター

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

パラメーター

名前 説明
name
必須
str

この実行に固有の出力の名前。 これは一般的に系列の目的で使用されます。 [なし] に設定すると、名前が自動的に生成されます。 この名前は、出力ファイルとフォルダーを書き込み先にアップロードするローカル パスを含む環境変数にもなります。

destination
必須

出力のコピー先。 None に設定すると、パス /dataset/{run-id}/{output-name} の下の workspaceblobstore データストアに出力がコピーされます。 ここで、run-id は Run の ID、 出力名 は上記の name パラメーターからの出力名です。 変換先はタプルで、最初の項目はデータストア、2 番目の項目はデータをコピーするデータストア内のパスです。

データストア内のパスには、テンプレート パスを指定できます。 テンプレート パスは通常のパスに過ぎませんが、プレースホルダーが含まれています。 これらのプレースホルダーは、適切なタイミングで解決されます。 プレースホルダーの構文は {placeholder} です (例: /path/with/{placeholder})。 現在、{run-id} と {output-name} という 2 つのプレースホルダーのみがサポートされています。

source
必須
str

データのコピー元となるコンピューティング 先内のパス。 [なし] に設定すると、コンピューティング 先の OS 一時ディレクトリ内に作成したディレクトリに設定されます。

partition_format
必須
str

パスのパーティション形式を指定します。 デフォルトは「なし」です。 各パスのパーティション情報は、指定された形式に基づいて列に抽出されます。 書式パーツ '{column_name}' は文字列列を作成し、'{column_name:yyyy/MM/dd/HH/mm/ss}' は datetime 列を作成します。ここで、datetime 型の年、月、日、時、分、秒を抽出するために 'yyyy'、'MM'、'dd'、'hh'、'mm'、'ss' が使用されます。 形式は、最初のパーティション キーの位置からファイル パスの末尾まで開始する必要があります。 たとえば、パス '../Accounts/2019/01/01/data.parquet' では、パーティションが部門名と時刻によって指定されます。partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' は、値 'Accounts' を持つ文字列列 'Department' と値 '2019-01-01' を持つ datetime 列 'PartitionDate' を作成します。

name
必須
str

この実行に固有の出力の名前。 これは一般的に系列の目的で使用されます。 [なし] に設定すると、名前が自動的に生成されます。 この名前は、出力ファイルとフォルダーを書き込み先にアップロードするローカル パスを含む環境変数にもなります。

destination
必須

出力のコピー先。 None に設定すると、パス /dataset/{run-id}/{output-name} の下の workspaceblobstore データストアに出力がコピーされます。 ここで、run-id は Run の ID、 出力名 は上記の name パラメーターからの出力名です。 変換先はタプルで、最初の項目はデータストア、2 番目の項目はデータをコピーするデータストア内のパスです。

データストア内のパスには、テンプレート パスを指定できます。 テンプレート パスは通常のパスに過ぎませんが、プレースホルダーが含まれています。 これらのプレースホルダーは、適切なタイミングで解決されます。 プレースホルダーの構文は {placeholder} です (例: /path/with/{placeholder})。 現在、{run-id} と {output-name} という 2 つのプレースホルダーのみがサポートされています。

source
必須
str

データのコピー元となるコンピューティング 先内のパス。 [なし] に設定すると、コンピューティング 先の OS 一時ディレクトリ内に作成したディレクトリに設定されます。

partition_format
必須
str

パスのパーティション形式を指定します。 デフォルトは「なし」です。 各パスのパーティション情報は、指定された形式に基づいて列に抽出されます。 書式パーツ '{column_name}' は文字列列を作成し、'{column_name:yyyy/MM/dd/HH/mm/ss}' は datetime 列を作成します。ここで、datetime 型の年、月、日、時、分、秒を抽出するために 'yyyy'、'MM'、'dd'、'hh'、'mm'、'ss' が使用されます。 形式は、最初のパーティション キーの位置からファイル パスの末尾まで開始する必要があります。 たとえば、パス '../Accounts/2019/01/01/data.parquet' では、パーティションが部門名と時刻によって指定されます。partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' は、値 'Accounts' を持つ文字列列 'Department' と値 '2019-01-01' を持つ datetime 列 'PartitionDate' を作成します。

注釈

OutputFileDatasetConfig は、実行に引数として渡すことができます。これは、コンピューティング上のローカル パスに自動的に変換されます。 ソース引数が指定されている場合は、ソース引数が使用されます。それ以外の場合は、OS の一時フォルダーにディレクトリが自動的に生成されます。 ソース ディレクトリ内のファイルとフォルダーは、出力構成に基づいてコピー先にコピーされます。

既定では、出力がコピー先ストレージにコピーされるモードはマウントに設定されます。 マウント モードの詳細については、as_mountのドキュメントを参照してください。

メソッド

as_input

後続のパイプライン ステップで、出力を入力として使用する方法を指定します。

as_mount

マウントする出力のモードを設定します。

マウント モードの場合、出力ディレクトリは FUSE マウント ディレクトリになります。 マウントされたディレクトリに書き込まれたファイルは、ファイルが閉じられるとアップロードされます。

as_upload

アップロードする出力のモードを設定します。

アップロード モードの場合、出力ディレクトリに書き込まれたファイルはジョブの最後にアップロードされます。 ジョブが失敗した場合、または取り消された場合、出力ディレクトリはアップロードされません。

as_input

後続のパイプライン ステップで、出力を入力として使用する方法を指定します。

as_input(name=None)

パラメーター

名前 説明
name
必須
str

実行に固有の入力の名前。

戻り値

説明

入力データを配信する方法を説明する DatasetConsumptionConfig インスタンス。

as_mount

マウントする出力のモードを設定します。

マウント モードの場合、出力ディレクトリは FUSE マウント ディレクトリになります。 マウントされたディレクトリに書き込まれたファイルは、ファイルが閉じられるとアップロードされます。

as_mount(disable_metadata_cache=False)

パラメーター

名前 説明
disable_metadata_cache
必須

メタデータをローカル ノードにキャッシュするかどうか。無効にした場合、ノードはジョブの実行中に他のノードから生成されたファイルを表示できません。

戻り値

説明

マウントするモードが設定された OutputFileDatasetConfig インスタンス。

as_upload

アップロードする出力のモードを設定します。

アップロード モードの場合、出力ディレクトリに書き込まれたファイルはジョブの最後にアップロードされます。 ジョブが失敗した場合、または取り消された場合、出力ディレクトリはアップロードされません。

as_upload(overwrite=False, source_globs=None)

パラメーター

名前 説明
overwrite
必須

コピー先に既に存在するファイルを上書きするかどうかを指定します。

source_globs
必須

アップロードされるファイルをフィルター処理するために使用される Glob パターン。

戻り値

説明

アップロードするモードが設定された OutputFileDatasetConfig インスタンス。