OutputTabularDatasetConfig クラス
実行の出力をコピーし、TabularDataset として昇格させる方法を表します。
OutputTabularDatasetConfig を初期化します。
コンストラクター
OutputTabularDatasetConfig(**kwargs)
注釈
このコンストラクターを直接呼び出すのではなく、OutputFileDatasetConfig を作成し、対応する read_* メソッドを呼び出して OutputTabularDatasetConfig に変換する必要があります。
OutputTabularDatasetConfig の出力先に出力をコピーする方法は、OutputFileDatasetConfig と同じです。 これらの違いは、作成されるデータセットが、指定されたすべての変換を含む TabularDataset になることです。
メソッド
as_input |
後続のパイプライン ステップで、出力を入力として使用する方法を指定します。 |
as_mount |
マウントする出力のモードを設定します。 マウント モードの場合、出力ディレクトリは FUSE マウント ディレクトリになります。 マウントされたディレクトリに書き込まれたファイルは、ファイルが閉じられるとアップロードされます。 |
as_upload |
アップロードする出力のモードを設定します。 アップロード モードの場合、出力ディレクトリに書き込まれたファイルはジョブの最後にアップロードされます。 ジョブが失敗した場合、または取り消された場合、出力ディレクトリはアップロードされません。 |
drop_columns |
指定した列をデータセットから削除します。 |
keep_columns |
指定した列を保持し、データセットから他のすべての列を削除します。 |
random_split |
データセット内のレコードをランダムに 2 つの部分に分割し、指定された割合でほぼ分割します。 結果の出力構成では名前が変更され、最初の構成では名前に _1 が追加され、2 つ目の出力構成には名前に _2 が追加されます。 名前の競合が発生する場合、またはカスタム名を指定する場合は、名前を手動で設定してください。 |
as_input
後続のパイプライン ステップで、出力を入力として使用する方法を指定します。
as_input(name=None)
パラメーター
名前 | 説明 |
---|---|
name
必須
|
実行に固有の入力の名前。 |
戻り値
型 | 説明 |
---|---|
入力データを配信する方法を説明する DatasetConsumptionConfig インスタンス。 |
as_mount
マウントする出力のモードを設定します。
マウント モードの場合、出力ディレクトリは FUSE マウント ディレクトリになります。 マウントされたディレクトリに書き込まれたファイルは、ファイルが閉じられるとアップロードされます。
as_mount()
戻り値
型 | 説明 |
---|---|
マウントするモードが設定された OutputTabularDatasetConfig インスタンス。 |
as_upload
アップロードする出力のモードを設定します。
アップロード モードの場合、出力ディレクトリに書き込まれたファイルはジョブの最後にアップロードされます。 ジョブが失敗した場合、または取り消された場合、出力ディレクトリはアップロードされません。
as_upload(overwrite=False, source_globs=None)
パラメーター
名前 | 説明 |
---|---|
overwrite
必須
|
コピー先に既に存在するファイルを上書きするかどうかを指定します。 |
source_globs
必須
|
アップロードされるファイルをフィルター処理するために使用される Glob パターン。 |
戻り値
型 | 説明 |
---|---|
アップロードするモードが設定された OutputTabularDatasetConfig インスタンス。 |
drop_columns
指定した列をデータセットから削除します。
drop_columns(columns)
パラメーター
名前 | 説明 |
---|---|
columns
必須
|
削除する列の名前または名前の一覧。 |
戻り値
型 | 説明 |
---|---|
列を削除する OutputTabularDatasetConfig インスタンス。 |
keep_columns
指定した列を保持し、データセットから他のすべての列を削除します。
keep_columns(columns)
パラメーター
名前 | 説明 |
---|---|
columns
必須
|
保持する列の名前または名前の一覧。 |
戻り値
型 | 説明 |
---|---|
列を保持する OutputTabularDatasetConfig インスタンス。 |
random_split
データセット内のレコードをランダムに 2 つの部分に分割し、指定された割合でほぼ分割します。
結果の出力構成では名前が変更され、最初の構成では名前に _1 が追加され、2 つ目の出力構成には名前に _2 が追加されます。 名前の競合が発生する場合、またはカスタム名を指定する場合は、名前を手動で設定してください。
random_split(percentage, seed=None)
パラメーター
名前 | 説明 |
---|---|
percentage
必須
|
データセットを分割するおおよその割合。 0.0 ~ 1.0 の範囲の数値を指定する必要があります。 |
seed
必須
|
ランダム ジェネレーターに使用する省略可能なシード。 |
戻り値
型 | 説明 |
---|---|
分割後の 2 つのデータセットを表す 2 つの OutputTabularDatasetConfig オブジェクトのタプルを返します。 |