TabularDataset 클래스

Azure Machine Learning에서 사용할 테이블 형식 데이터 세트를 나타냅니다.

TabularDataset는 데이터 원본에서 테이블 형식 표현으로 데이터를 로드하는 일련의 지연 평가, 변경할 수 없는 작업을 정의합니다. TabularDataset에서 데이터를 배달하라는 메시지가 표시될 때까지 데이터는 원본에서 로드되지 않습니다.

TabularDataset는 클래스와 같은 from_delimited_files 메서드를 TabularDatasetFactory 사용하여 만들어집니다.

자세한 내용은 데이터 세트 추가 및 등록 문서를 참조하세요. 테이블 형식 데이터 세트 작업을 시작하려면 다음을 참조하세요 https://aka.ms/tabulardataset-samplenotebook.

TabularDataset 개체를 초기화합니다.

이 생성자는 직접 호출할 수 없습니다. 데이터 세트는 클래스를 사용하여 TabularDatasetFactory 만들기 위한 것입니다.

생성자

TabularDataset()

설명

클래스의 메서드를 사용하여 CSV, TSV, Parquet 파일 또는 SQL 쿼리에서 TabularDataset를 from_*TabularDatasetFactory 만들 수 있습니다. 레코드 분할, 건너뛰기 및 필터링과 같은 TabularDataset에서 하위 설정 작업을 수행할 수 있습니다. 하위 설정의 결과는 항상 하나 이상의 새 TabularDataset 개체입니다.

TabularDataset을 pandas DataFrame과 같은 다른 형식으로 변환할 수도 있습니다. 실제 데이터 로드는 TabularDataset가 다른 스토리지 메커니즘(예: Pandas Dataframe 또는 CSV 파일)에 데이터를 전달하도록 요청받을 때 발생합니다.

TabularDataset는 실험 실행의 입력으로 사용할 수 있습니다. 지정된 이름을 가진 작업 영역에 등록하고 나중에 해당 이름으로 검색할 수도 있습니다.

메서드

download	비고 이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요. 데이터 세트에서 정의한 파일 스트림을 로컬 경로로 다운로드합니다.
drop_columns	데이터 세트에서 지정된 열을 삭제합니다. 시간 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다.
filter	비고 이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요. 지정된 식과 일치하는 레코드만 남겨두고 데이터를 필터링합니다.
get_profile	비고 이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요. 작업 영역의 이 데이터 세트 또는 동일한 데이터 세트에 대해 제출된 최신 프로필 실행에서 데이터 프로필을 가져옵니다.
get_profile_runs	비고 이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요. 작업 영역에서 이 데이터 세트 또는 동일한 데이터 세트와 연결된 이전 프로필 실행을 반환합니다.
keep_columns	지정된 열을 유지하고 데이터 세트에서 다른 모든 열을 삭제합니다. 시간 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다.
mount	비고 이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요. 데이터 세트에서 로컬 파일로 정의한 파일 스트림을 탑재하기 위한 컨텍스트 관리자를 만듭니다.
partition_by	분할된 데이터는 복사되고 대상에서 지정한 대상으로 출력됩니다. 파티션 형식으로 출력된 데이터 경로에서 데이터 세트를 만들고, 이름이 제공되면 데이터 세트를 등록하고, 파티션을 사용하여 새 데이터 경로에 대한 데이터 세트를 반환합니다. `ds = Dataset.get_by_name('test') # indexed by country, state, partition_date # #1: call partition_by locally new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'], target=DataPath(datastore, "repartition")) partition_keys = newds.partition_keys # ['country'] # new_ds can be passed to PRS as input dataset`
random_split	데이터 세트의 레코드를 지정된 백분율에 따라 임의로 두 부분으로 분할합니다. 첫 번째 데이터 세트에는 총 레코드의 약 `percentage` 과 나머지 레코드의 두 번째 데이터 세트가 포함됩니다.
skip	지정된 개수로 데이터 세트의 맨 위에서 레코드를 건너뜁니다.
submit_profile_run	비고 이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요. 실험 실행을 제출하여 데이터 프로필을 계산합니다. 데이터 프로필은 열 형식, 누락 값 등과 같은 데이터에 대한 유용한 정보를 제공하여 입력 데이터를 이해하고 변칙 및 누락된 값을 식별하는 데 매우 유용할 수 있습니다.
take	데이터 세트의 맨 위에서 지정된 개수로 레코드 샘플을 가져옵니다.
take_sample	데이터 세트의 임의 레코드 샘플을 지정된 확률로 대략적으로 가져옵니다.
time_after	지정된 시작 시간 후에 타임스탬프를 사용하여 TabularDataset를 필터링합니다.
time_before	지정된 종료 시간 전에 타임스탬프를 사용하여 TabularDataset를 필터링합니다.
time_between	지정된 시작 시간과 종료 시간 사이에 TabularDataset를 필터링합니다.
time_recent	최근 데이터의 지정된 기간(양)만 포함하도록 TabularDataset를 필터링합니다.
to_csv_files	현재 데이터 세트를 CSV 파일이 포함된 FileDataset으로 변환합니다. 결과 데이터 세트에는 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 CSV 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다.
to_dask_dataframe	비고 이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요. 데이터 세트의 데이터를 지연적으로 읽을 수 있는 Dask DataFrame을 반환합니다.
to_pandas_dataframe	데이터 세트의 모든 레코드를 pandas DataFrame으로 로드합니다.
to_parquet_files	현재 데이터 세트를 Parquet 파일이 포함된 FileDataset으로 변환합니다. 결과 데이터 세트에는 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 Parquet 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다.
to_spark_dataframe	데이터 세트의 모든 레코드를 Spark DataFrame으로 로드합니다.
with_timestamp_columns	데이터 세트에 대한 타임스탬프 열을 정의합니다.

download

비고

이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요.

데이터 세트에서 정의한 파일 스트림을 로컬 경로로 다운로드합니다.

download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)

매개 변수

Name	Description
stream_column 필수	str 다운로드할 스트림 열입니다.
target_path 필수	str 파일을 다운로드할 로컬 디렉터리입니다. None이면 데이터가 임시 디렉터리에 다운로드됩니다.
overwrite 필수	bool 기존 파일을 덮어쓸지 여부를 나타냅니다. 기본값은 False입니다. 덮어쓰기가 True로 설정된 경우 기존 파일을 덮어씁니다. 그렇지 않으면 예외가 발생합니다.
ignore_not_found 필수	bool 데이터 세트에서 가리키는 일부 파일을 찾을 수 없는 경우 다운로드 실패 여부를 나타냅니다. 기본값은 True입니다. ignore_not_found False로 설정된 경우 어떤 이유로든 파일 다운로드가 실패하면 다운로드가 실패합니다. 그렇지 않으면 찾을 수 없는 오류에 대한 경고가 기록되고 다른 오류 유형이 발생하지 않는 한 dowload가 성공합니다.

반환

형식	Description
ndarray	다운로드한 각 파일에 대한 파일 경로 배열을 반환합니다.

drop_columns

데이터 세트에서 지정된 열을 삭제합니다.

시간 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다.

drop_columns(columns)

매개 변수

Name	Description
columns 필수	Union[str, list[str]] 삭제할 열의 이름 또는 이름 목록입니다.

반환

형식	Description
TabularDataset	지정된 열이 삭제된 새 TabularDataset 개체를 반환합니다.

filter

비고

이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요.

지정된 식과 일치하는 레코드만 남겨두고 데이터를 필터링합니다.

filter(expression)

매개 변수

Name	Description
expression 필수	any 평가할 식입니다.

반환

형식	Description
TabularDataset	수정된 데이터 세트(등록 취소됨)입니다.

설명

식은 열 이름으로 데이터 세트를 인덱싱하여 시작합니다. 다양한 함수와 연산자를 지원하며 논리 연산자를 사용하여 결합할 수 있습니다. 결과 식은 데이터 끌어오기가 발생할 때 정의되는 위치가 아니라 각 레코드에 대해 지연 계산됩니다.


   dataset['myColumn'] > dataset['columnToCompareAgainst']
   dataset['myColumn'].starts_with('prefix')

get_profile

비고

이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요.

작업 영역의 이 데이터 세트 또는 동일한 데이터 세트에 대해 제출된 최신 프로필 실행에서 데이터 프로필을 가져옵니다.

get_profile(workspace=None)

매개 변수

Name	Description
workspace 필수	Workspace 프로필 실행이 제출된 작업 영역입니다. 기본값은 이 데이터 세트의 작업 영역입니다. 데이터 세트가 작업 영역에 연결되지 않은 경우 필요합니다. 작업 영역에 대한 자세한 내용은 참조 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace 하세요.

반환

형식	Description
DatasetProfile	DatasetProfile 형식의 최신 프로필 실행에서의 프로필 결과입니다.

get_profile_runs

비고

이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요.

작업 영역에서 이 데이터 세트 또는 동일한 데이터 세트와 연결된 이전 프로필 실행을 반환합니다.

get_profile_runs(workspace=None)

매개 변수

Name	Description
workspace 필수	Workspace 프로필 실행이 제출된 작업 영역입니다. 기본값은 이 데이터 세트의 작업 영역입니다. 데이터 세트가 작업 영역에 연결되지 않은 경우 필요합니다. 작업 영역에 대한 자세한 내용은 참조 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace 하세요.

반환

형식	Description
iter(Run)	azureml.core.Run 형식의 iterator 개체입니다.

keep_columns

지정된 열을 유지하고 데이터 세트에서 다른 모든 열을 삭제합니다.

시간 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다.

keep_columns(columns, validate=False)

매개 변수

Name	Description
columns 필수	Union[str, list[str]] 유지할 열의 이름 또는 이름 목록입니다.
validate 필수	bool 반환된 데이터 세트에서 데이터를 로드할 수 있는지 여부를 나타냅니다. 기본값은 False입니다. 유효성 검사를 수행하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

형식	Description
TabularDataset	지정된 열만 보관된 새 TabularDataset 개체를 반환합니다.

mount

비고

이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요.

데이터 세트에서 로컬 파일로 정의한 파일 스트림을 탑재하기 위한 컨텍스트 관리자를 만듭니다.

mount(stream_column, mount_point=None)

매개 변수

Name	Description
stream_column 필수	str 탑재할 스트림 열입니다.
mount_point 필수	str 파일을 탑재할 로컬 디렉터리입니다. None이면 데이터가 임시 디렉터리에 탑재되며 MountContext.mount_point 인스턴스 메서드 를 호출하여 찾을 수 있습니다.

반환

형식	Description
<xref:azureml.dataprep.fuse.daemon.MountContext>	탑재의 수명 주기를 관리하기 위한 컨텍스트 관리자를 반환합니다.

partition_by

분할된 데이터는 복사되고 대상에서 지정한 대상으로 출력됩니다.

파티션 형식으로 출력된 데이터 경로에서 데이터 세트를 만들고, 이름이 제공되면 데이터 세트를 등록하고, 파티션을 사용하여 새 데이터 경로에 대한 데이터 세트를 반환합니다.


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset

partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)

매개 변수

Name	Description
partition_keys 필수	list[str] 필수, 파티션 키
target 필수	DataPath, Datastore 또는 tuple(Datastore, str) object 필수 요소로, 데이터 프레임 parquet 데이터를 업로드할 데이터 저장소 경로입니다. 충돌을 방지하기 위해 대상 경로 아래에 guid 폴더가 생성됩니다.
name 필수	str 선택 사항인 등록 이름입니다.
show_progress 필수	bool 선택 사항으로, 콘솔에서 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다.
partition_as_file_dataset 필수	선택 사항으로 filedataset을 반환할지 여부를 나타냅니다. 기본값은 False입니다.

반환

형식	Description
TabularDataset	저장된 데이터 세트 또는 등록된 데이터 세트입니다.

random_split

데이터 세트의 레코드를 지정된 백분율에 따라 임의로 두 부분으로 분할합니다.

첫 번째 데이터 세트에는 총 레코드의 약 percentage 과 나머지 레코드의 두 번째 데이터 세트가 포함됩니다.

random_split(percentage, seed=None)

매개 변수

Name	Description
percentage 필수	float 데이터 세트를 분할할 대략적인 백분율입니다. 0.0에서 1.0 사이의 숫자여야 합니다.
seed 필수	int 임의 생성기에 사용할 선택적 시드입니다.

반환

형식	Description
(TabularDataset, TabularDataset)	분할 후 두 데이터 세트를 나타내는 새 TabularDataset 개체의 튜플을 반환합니다.

skip

지정된 개수로 데이터 세트의 맨 위에서 레코드를 건너뜁니다.

skip(count)

매개 변수

Name	Description
count 필수	int 건너뛸 레코드 수입니다.

반환

형식	Description
TabularDataset	레코드를 건너뛴 데이터 세트를 나타내는 새 TabularDataset 개체를 반환합니다.

submit_profile_run

비고

이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요.

실험 실행을 제출하여 데이터 프로필을 계산합니다.

데이터 프로필은 열 형식, 누락 값 등과 같은 데이터에 대한 유용한 정보를 제공하여 입력 데이터를 이해하고 변칙 및 누락된 값을 식별하는 데 매우 유용할 수 있습니다.

submit_profile_run(compute_target, experiment, cache_datastore_name=None)

매개 변수

Name	Description
compute_target 필수	Union[str, ComputeTarget] 프로필 계산 실험을 실행할 컴퓨팅 대상입니다. 로컬 컴퓨팅을 사용하도록 'local'을 지정합니다. 컴퓨팅 대상에 대한 자세한 내용은 참조 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget 하세요.
experiment 필수	Experiment 실험 개체입니다. 실험에 대한 자세한 내용은 참조 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment 하세요.
cache_datastore_name 필수	str 프로필 캐시를 저장할 데이터 저장소의 이름(None인 경우 기본 데이터 저장소가 사용됨)

반환

형식	Description
DatasetProfileRun	DatasetProfileRun 클래스 형식의 개체입니다.

take

데이터 세트의 맨 위에서 지정된 개수로 레코드 샘플을 가져옵니다.

take(count)

매개 변수

Name	Description
count 필수	int 취할 레코드 수입니다.

반환

형식	Description
TabularDataset	샘플링된 데이터 세트를 나타내는 새 TabularDataset 개체를 반환합니다.

take_sample

데이터 세트의 임의 레코드 샘플을 지정된 확률로 대략적으로 가져옵니다.

take_sample(probability, seed=None)

매개 변수

Name	Description
probability 필수	float 샘플에 포함되는 레코드의 확률입니다.
seed 필수	int 임의 생성기에 사용할 선택적 시드입니다.

반환

형식	Description
TabularDataset	샘플링된 데이터 세트를 나타내는 새 TabularDataset 개체를 반환합니다.

time_after

지정된 시작 시간 후에 타임스탬프를 사용하여 TabularDataset를 필터링합니다.

time_after(start_time, include_boundary=True, validate=True)

매개 변수

Name	Description
start_time 필수	datetime 데이터 필터링에 대한 하한입니다.
include_boundary 필수	bool 경계 시간(`start_time`)과 연결된 행을 포함해야 하는지 여부를 나타냅니다.
validate 필수	bool 지정된 열이 데이터 세트에 있는지 여부를 나타냅니다. 기본값은 True입니다. 유효성 검사를 수행하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

형식	Description
TabularDataset	필터링된 새 데이터 세트가 있는 TabularDataset입니다.

time_before

지정된 종료 시간 전에 타임스탬프를 사용하여 TabularDataset를 필터링합니다.

time_before(end_time, include_boundary=True, validate=True)

매개 변수

Name	Description
end_time 필수	datetime 데이터 필터링을 위한 상한입니다.
include_boundary 필수	bool 경계 시간(`end_time`)과 연결된 행을 포함해야 하는지 여부를 나타냅니다.
validate 필수	bool 지정된 열이 데이터 세트에 있는지 여부를 나타냅니다. 기본값은 True입니다. 유효성 검사를 수행하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

형식	Description
TabularDataset	필터링된 새 데이터 세트가 있는 TabularDataset입니다.

time_between

지정된 시작 시간과 종료 시간 사이에 TabularDataset를 필터링합니다.

time_between(start_time, end_time, include_boundary=True, validate=True)

매개 변수

Name	Description
start_time 필수	datetime 데이터 필터링에 대한 하한입니다.
end_time 필수	datetime 데이터 필터링을 위한 상한입니다.
include_boundary 필수	bool 경계 시간과 연결된 행(`start_end` 및 `end_time`)을 포함해야 하는지 여부를 나타냅니다.
validate 필수	bool 지정된 열이 데이터 세트에 있는지 여부를 나타냅니다. 기본값은 True입니다. 유효성 검사를 수행하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

형식	Description
TabularDataset	필터링된 새 데이터 세트가 있는 TabularDataset입니다.

time_recent

최근 데이터의 지정된 기간(양)만 포함하도록 TabularDataset를 필터링합니다.

time_recent(time_delta, include_boundary=True, validate=True)

매개 변수

Name	Description
time_delta 필수	timedelta 검색할 최근 데이터의 기간(양)입니다.
include_boundary 필수	bool 경계 시간(`time_delta`)과 연결된 행을 포함해야 하는지 여부를 나타냅니다.
validate 필수	bool 지정된 열이 데이터 세트에 있는지 여부를 나타냅니다. 기본값은 True입니다. 유효성 검사를 수행하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

형식	Description
TabularDataset	필터링된 새 데이터 세트가 있는 TabularDataset입니다.

to_csv_files

현재 데이터 세트를 CSV 파일이 포함된 FileDataset으로 변환합니다.

결과 데이터 세트에는 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 CSV 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다.

to_csv_files(separator=',')

매개 변수

Name	Description
separator 필수	str 결과 파일의 값을 구분하는 데 사용할 구분 기호입니다.

반환

형식	Description
FileDataset	이 데이터 세트의 데이터를 포함하는 CSV 파일 집합이 있는 새 FileDataset 개체를 반환합니다.

to_dask_dataframe

비고

이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요.

데이터 세트의 데이터를 지연적으로 읽을 수 있는 Dask DataFrame을 반환합니다.

to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')

매개 변수

Name	Description
sample_size 필수	스키마 및 형식을 결정하기 위해 읽을 레코드 수입니다.
dtypes 필수	예상 열과 해당 dtype을 지정하는 선택적 받아쓰기입니다. sample_size 제공된 경우 무시됩니다.
on_error 필수	데이터 세트의 오류 값(예: 값을 구문 분석하는 동안 오류로 생성된 값)을 처리하는 방법입니다. 유효한 값은 null로 대체되는 'null'입니다. 및 'fail'이면 예외가 발생합니다.
out_of_range_datetime 필수	Pandas에서 지원하는 범위를 벗어난 날짜-시간 값을 처리하는 방법입니다. 유효한 값은 null로 대체되는 'null'입니다. 및 'fail'이면 예외가 발생합니다.

반환

형식	Description
	dask.dataframe.core.DataFrame

to_pandas_dataframe

데이터 세트의 모든 레코드를 pandas DataFrame으로 로드합니다.

to_pandas_dataframe(on_error='null', out_of_range_datetime='null')

매개 변수

Name	Description
on_error 필수	데이터 세트의 오류 값(예: 값을 구문 분석하는 동안 오류로 생성된 값)을 처리하는 방법입니다. 유효한 값은 null로 대체되는 'null'입니다. 및 'fail'이면 예외가 발생합니다.
out_of_range_datetime 필수	Pandas에서 지원하는 범위를 벗어난 날짜-시간 값을 처리하는 방법입니다. 유효한 값은 null로 대체되는 'null'입니다. 및 'fail'이면 예외가 발생합니다.

반환

형식	Description
DataFrame	pandas DataFrame을 반환합니다.

to_parquet_files

현재 데이터 세트를 Parquet 파일이 포함된 FileDataset으로 변환합니다.

결과 데이터 세트에는 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 Parquet 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다.

to_parquet_files()

반환

형식	Description
FileDataset	이 데이터 세트의 데이터를 포함하는 Parquet 파일 집합이 있는 새 FileDataset 개체를 반환합니다.

to_spark_dataframe

데이터 세트의 모든 레코드를 Spark DataFrame으로 로드합니다.

to_spark_dataframe()

반환

형식	Description
DataFrame	Spark DataFrame을 반환합니다.

with_timestamp_columns

데이터 세트에 대한 타임스탬프 열을 정의합니다.

with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)

매개 변수

Name	Description
timestamp 필수	str 타임스탬프로 열 이름(fine_grain_timestamp이라고 함)(선택 사항)입니다. 기본값은 None(clear)입니다.
partition_timestamp 필수	str 열 partition_timestamp 이름(거친 곡물 타임스탬프라고 함)(선택 사항)입니다. 기본값은 None(clear)입니다.
validate 필수	bool 지정된 열이 데이터 세트에 있는지 여부를 나타냅니다. 기본값은 False입니다. 유효성 검사를 수행하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

반환

형식	Description
TabularDataset	타임스탬프 열이 정의된 새 TabularDataset을 반환합니다.

설명

이 메서드는 타임스탬프로 사용할 열을 정의합니다. 데이터 세트의 타임스탬프 열을 사용하면 데이터를 시계열 데이터로 처리하고 추가 기능을 사용할 수 있습니다. 데이터 세트가 둘 다 timestamp (used to be referred as fine_grain_timestamp) 있고 partition_timestamp (used to be referred as coarse grain timestamp) 지정된 경우 두 열은 동일한 타임라인을 나타내야 합니다.

특성

timestamp_columns

타임스탬프 열을 반환합니다.

반환

형식	Description
(str, str)	데이터 세트에 대해 정의된 타임스탬프(fine_grain_timestamp라고 함) 및 partition_timestamp(거친 곡물 타임스탬프라고 함)의 열 이름입니다.

다음을 통해 공유

TabularDataset 클래스

생성자

설명

메서드

download

매개 변수

반환

drop_columns

매개 변수

반환

filter

매개 변수

반환

설명

get_profile

매개 변수

반환

get_profile_runs

매개 변수

반환

keep_columns

매개 변수

반환

mount

매개 변수

반환

partition_by

매개 변수

반환

random_split

매개 변수

반환

skip

매개 변수

반환

submit_profile_run

매개 변수

반환

take

매개 변수

반환

take_sample

매개 변수

반환

time_after

매개 변수

반환

time_before

매개 변수

반환

time_between

매개 변수

반환

time_recent

매개 변수

반환

to_csv_files

매개 변수

반환

to_dask_dataframe

매개 변수

반환

to_pandas_dataframe

매개 변수

반환

to_parquet_files

반환

to_spark_dataframe

반환

with_timestamp_columns

매개 변수

반환

설명

특성

timestamp_columns

반환

피드백