다음을 통해 공유


OutputTabularDatasetConfig 클래스

실행의 출력을 복사하고 TabularDataset로 승격하는 방법을 나타냅니다.

OutputTabularDatasetConfig를 초기화합니다.

생성자

OutputTabularDatasetConfig(**kwargs)

설명

이 생성자를 직접 호출하지 말고 OutputFileDatasetConfig를 만든 다음 해당 read_* 메서드를 호출하여 OutputTabularDatasetConfig로 변환해야 합니다.

출력이 OutputTabularDatasetConfig의 대상으로 복사되는 방식은 OutputFileDatasetConfig와 동일합니다. 둘 사이의 차이점은 생성된 데이터 세트가 지정된 모든 변환을 포함하는 TabularDataset라는 점입니다.

메서드

as_input

후속 파이프라인 단계에서 출력을 입력으로 사용하는 방법을 지정합니다.

as_mount

탑재할 출력의 모드를 설정합니다.

탑재 모드의 경우 출력 디렉터리가 FUSE 탑재 디렉터리가 됩니다. 탑재된 디렉터리에 기록된 파일은 파일을 닫으면 업로드됩니다.

as_upload

업로드할 출력의 모드를 설정합니다.

업로드 모드의 경우 출력 디렉터리에 기록된 파일은 작업이 끝날 때 업로드됩니다. 작업이 실패하거나 취소되면 출력 디렉터리가 업로드되지 않습니다.

drop_columns

데이터 세트에서 지정된 열을 삭제합니다.

keep_columns

지정된 열을 유지하고 다른 모든 열을 데이터 세트에서 삭제합니다.

random_split

데이터 세트의 레코드를 지정된 백분율에 따라 임의로 두 부분으로 분할합니다.

결과 출력 구성은 이름이 변경되고 첫 번째 구성은 이름에 _1이 추가되고 두 번째 출력 구성에는 이름에 _2가 추가됩니다. 이름 충돌이 발생하거나 사용자 지정 이름을 지정하려면 해당 이름을 수동으로 설정하세요.

as_input

후속 파이프라인 단계에서 출력을 입력으로 사용하는 방법을 지정합니다.

as_input(name=None)

매개 변수

Name Description
name
필수
str

실행과 관련된 입력의 이름입니다.

반환

형식 Description

DatasetConsumptionConfig 입력 데이터를 전달하는 방법을 설명하는 인스턴스입니다.

as_mount

탑재할 출력의 모드를 설정합니다.

탑재 모드의 경우 출력 디렉터리가 FUSE 탑재 디렉터리가 됩니다. 탑재된 디렉터리에 기록된 파일은 파일을 닫으면 업로드됩니다.

as_mount()

반환

형식 Description

OutputTabularDatasetConfig 탑재할 모드가 설정된 인스턴스입니다.

as_upload

업로드할 출력의 모드를 설정합니다.

업로드 모드의 경우 출력 디렉터리에 기록된 파일은 작업이 끝날 때 업로드됩니다. 작업이 실패하거나 취소되면 출력 디렉터리가 업로드되지 않습니다.

as_upload(overwrite=False, source_globs=None)

매개 변수

Name Description
overwrite
필수

대상에 이미 있는 파일을 덮어쓸지 여부입니다.

source_globs
필수

업로드할 파일을 필터링하는 데 사용되는 Glob 패턴입니다.

반환

형식 Description

OutputTabularDatasetConfig 업로드할 모드가 설정된 인스턴스입니다.

drop_columns

데이터 세트에서 지정된 열을 삭제합니다.

drop_columns(columns)

매개 변수

Name Description
columns
필수

삭제할 열의 이름 또는 이름 목록입니다.

반환

형식 Description

OutputTabularDatasetConfig 열을 삭제할 인스턴스입니다.

keep_columns

지정된 열을 유지하고 다른 모든 열을 데이터 세트에서 삭제합니다.

keep_columns(columns)

매개 변수

Name Description
columns
필수

유지할 열의 이름 또는 이름 목록입니다.

반환

형식 Description

OutputTabularDatasetConfig 유지할 열이 있는 인스턴스입니다.

random_split

데이터 세트의 레코드를 지정된 백분율에 따라 임의로 두 부분으로 분할합니다.

결과 출력 구성은 이름이 변경되고 첫 번째 구성은 이름에 _1이 추가되고 두 번째 출력 구성에는 이름에 _2가 추가됩니다. 이름 충돌이 발생하거나 사용자 지정 이름을 지정하려면 해당 이름을 수동으로 설정하세요.

random_split(percentage, seed=None)

매개 변수

Name Description
percentage
필수

데이터 세트를 분할할 대략적인 백분율입니다. 0.0에서 1.0 사이의 숫자여야 합니다.

seed
필수
int

임의 생성기에 사용할 선택적 시드입니다.

반환

형식 Description

분할 후 두 데이터 세트를 나타내는 두 OutputTabularDatasetConfig 개체의 튜플을 반환합니다.