OutputTabularDatasetConfig 클래스

실행의 출력을 복사하고 TabularDataset로 승격하는 방법을 나타냅니다.

OutputTabularDatasetConfig를 초기화합니다.

생성자

OutputTabularDatasetConfig(**kwargs)

설명

이 생성자를 직접 호출하지 말고 OutputFileDatasetConfig를 만든 다음 해당 read_* 메서드를 호출하여 OutputTabularDatasetConfig로 변환해야 합니다.

출력이 OutputTabularDatasetConfig의 대상으로 복사되는 방식은 OutputFileDatasetConfig와 동일합니다. 둘 사이의 차이점은 생성된 데이터 세트가 지정된 모든 변환을 포함하는 TabularDataset라는 점입니다.

메서드

as_input	후속 파이프라인 단계에서 출력을 입력으로 사용하는 방법을 지정합니다.
as_mount	탑재할 출력의 모드를 설정합니다. 탑재 모드의 경우 출력 디렉터리가 FUSE 탑재 디렉터리가 됩니다. 탑재된 디렉터리에 기록된 파일은 파일을 닫으면 업로드됩니다.
as_upload	업로드할 출력의 모드를 설정합니다. 업로드 모드의 경우 출력 디렉터리에 기록된 파일은 작업이 끝날 때 업로드됩니다. 작업이 실패하거나 취소되면 출력 디렉터리가 업로드되지 않습니다.
drop_columns	데이터 세트에서 지정된 열을 삭제합니다.
keep_columns	지정된 열을 유지하고 다른 모든 열을 데이터 세트에서 삭제합니다.
random_split	데이터 세트의 레코드를 지정된 백분율에 따라 임의로 두 부분으로 분할합니다. 결과 출력 구성은 이름이 변경되고 첫 번째 구성은 이름에 _1이 추가되고 두 번째 출력 구성에는 이름에 _2가 추가됩니다. 이름 충돌이 발생하거나 사용자 지정 이름을 지정하려면 해당 이름을 수동으로 설정하세요.

as_input

후속 파이프라인 단계에서 출력을 입력으로 사용하는 방법을 지정합니다.

as_input(name=None)

매개 변수

Name	Description
name 필수	str 실행과 관련된 입력의 이름입니다.

반환

형식	Description
DatasetConsumptionConfig	DatasetConsumptionConfig 입력 데이터를 전달하는 방법을 설명하는 인스턴스입니다.

as_mount

탑재할 출력의 모드를 설정합니다.

탑재 모드의 경우 출력 디렉터리가 FUSE 탑재 디렉터리가 됩니다. 탑재된 디렉터리에 기록된 파일은 파일을 닫으면 업로드됩니다.

as_mount()

반환

형식	Description
OutputTabularDatasetConfig	OutputTabularDatasetConfig 탑재할 모드가 설정된 인스턴스입니다.

as_upload

업로드할 출력의 모드를 설정합니다.

업로드 모드의 경우 출력 디렉터리에 기록된 파일은 작업이 끝날 때 업로드됩니다. 작업이 실패하거나 취소되면 출력 디렉터리가 업로드되지 않습니다.

as_upload(overwrite=False, source_globs=None)

매개 변수

Name	Description
overwrite 필수	bool 대상에 이미 있는 파일을 덮어쓸지 여부입니다.
source_globs 필수	list[str] 업로드할 파일을 필터링하는 데 사용되는 Glob 패턴입니다.

반환

형식	Description
OutputTabularDatasetConfig	OutputTabularDatasetConfig 업로드할 모드가 설정된 인스턴스입니다.

drop_columns

데이터 세트에서 지정된 열을 삭제합니다.

drop_columns(columns)

매개 변수

Name	Description
columns 필수	Union[str, list[str]] 삭제할 열의 이름 또는 이름 목록입니다.

반환

형식	Description
PipelineOutputTabularDataset	OutputTabularDatasetConfig 열을 삭제할 인스턴스입니다.

keep_columns

지정된 열을 유지하고 다른 모든 열을 데이터 세트에서 삭제합니다.

keep_columns(columns)

매개 변수

Name	Description
columns 필수	Union[str, list[str]] 유지할 열의 이름 또는 이름 목록입니다.

반환

형식	Description
PipelineOutputTabularDataset	OutputTabularDatasetConfig 유지할 열이 있는 인스턴스입니다.

random_split

데이터 세트의 레코드를 지정된 백분율에 따라 임의로 두 부분으로 분할합니다.

결과 출력 구성은 이름이 변경되고 첫 번째 구성은 이름에 _1이 추가되고 두 번째 출력 구성에는 이름에 _2가 추가됩니다. 이름 충돌이 발생하거나 사용자 지정 이름을 지정하려면 해당 이름을 수동으로 설정하세요.

random_split(percentage, seed=None)

매개 변수

Name	Description
percentage 필수	float 데이터 세트를 분할할 대략적인 백분율입니다. 0.0에서 1.0 사이의 숫자여야 합니다.
seed 필수	int 임의 생성기에 사용할 선택적 시드입니다.

반환

형식	Description
tuple(OutputTabularDatasetConfig, OutputTabularDatasetConfig)	분할 후 두 데이터 세트를 나타내는 두 OutputTabularDatasetConfig 개체의 튜플을 반환합니다.

다음을 통해 공유

OutputTabularDatasetConfig 클래스

생성자

설명

메서드

as_input

매개 변수

반환

as_mount

반환

as_upload

매개 변수

반환

drop_columns

매개 변수

반환

keep_columns

매개 변수

반환

random_split

매개 변수

반환

피드백