TabularDataset 클래스
Azure Machine Learning에서 사용할 테이블 형식 데이터 세트를 나타냅니다.
TabularDataset는 데이터 원본에서 테이블 형식 표현으로 데이터를 로드하는 일련의 지연 평가, 변경할 수 없는 작업을 정의합니다. TabularDataset에서 데이터를 배달하라는 메시지가 표시될 때까지 데이터는 원본에서 로드되지 않습니다.
TabularDataset는 클래스와 같은 from_delimited_files 메서드를 TabularDatasetFactory 사용하여 만들어집니다.
자세한 내용은 데이터 세트 추가 및 등록 문서를 참조하세요. 테이블 형식 데이터 세트 작업을 시작하려면 다음을 참조하세요 https://aka.ms/tabulardataset-samplenotebook.
TabularDataset 개체를 초기화합니다.
이 생성자는 직접 호출할 수 없습니다. 데이터 세트는 클래스를 사용하여 TabularDatasetFactory 만들기 위한 것입니다.
생성자
TabularDataset()
설명
클래스의 메서드를 사용하여 CSV, TSV, Parquet 파일 또는 SQL 쿼리에서 TabularDataset를 from_*
TabularDatasetFactory 만들 수 있습니다. 레코드 분할, 건너뛰기 및 필터링과 같은 TabularDataset에서 하위 설정 작업을 수행할 수 있습니다.
하위 설정의 결과는 항상 하나 이상의 새 TabularDataset 개체입니다.
TabularDataset을 pandas DataFrame과 같은 다른 형식으로 변환할 수도 있습니다. 실제 데이터 로드는 TabularDataset가 다른 스토리지 메커니즘(예: Pandas Dataframe 또는 CSV 파일)에 데이터를 전달하도록 요청받을 때 발생합니다.
TabularDataset는 실험 실행의 입력으로 사용할 수 있습니다. 지정된 이름을 가진 작업 영역에 등록하고 나중에 해당 이름으로 검색할 수도 있습니다.
메서드
download |
비고 이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요. 데이터 세트에서 정의한 파일 스트림을 로컬 경로로 다운로드합니다. |
drop_columns |
데이터 세트에서 지정된 열을 삭제합니다. 시간 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다. |
filter |
비고 이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요. 지정된 식과 일치하는 레코드만 남겨두고 데이터를 필터링합니다. |
get_profile |
비고 이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요. 작업 영역의 이 데이터 세트 또는 동일한 데이터 세트에 대해 제출된 최신 프로필 실행에서 데이터 프로필을 가져옵니다. |
get_profile_runs |
비고 이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요. 작업 영역에서 이 데이터 세트 또는 동일한 데이터 세트와 연결된 이전 프로필 실행을 반환합니다. |
keep_columns |
지정된 열을 유지하고 데이터 세트에서 다른 모든 열을 삭제합니다. 시간 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다. |
mount |
비고 이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요. 데이터 세트에서 로컬 파일로 정의한 파일 스트림을 탑재하기 위한 컨텍스트 관리자를 만듭니다. |
partition_by |
분할된 데이터는 복사되고 대상에서 지정한 대상으로 출력됩니다. 파티션 형식으로 출력된 데이터 경로에서 데이터 세트를 만들고, 이름이 제공되면 데이터 세트를 등록하고, 파티션을 사용하여 새 데이터 경로에 대한 데이터 세트를 반환합니다.
|
random_split |
데이터 세트의 레코드를 지정된 백분율에 따라 임의로 두 부분으로 분할합니다. 첫 번째 데이터 세트에는 총 레코드의 약 |
skip |
지정된 개수로 데이터 세트의 맨 위에서 레코드를 건너뜁니다. |
submit_profile_run |
비고 이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요. 실험 실행을 제출하여 데이터 프로필을 계산합니다. 데이터 프로필은 열 형식, 누락 값 등과 같은 데이터에 대한 유용한 정보를 제공하여 입력 데이터를 이해하고 변칙 및 누락된 값을 식별하는 데 매우 유용할 수 있습니다. |
take |
데이터 세트의 맨 위에서 지정된 개수로 레코드 샘플을 가져옵니다. |
take_sample |
데이터 세트의 임의 레코드 샘플을 지정된 확률로 대략적으로 가져옵니다. |
time_after |
지정된 시작 시간 후에 타임스탬프를 사용하여 TabularDataset를 필터링합니다. |
time_before |
지정된 종료 시간 전에 타임스탬프를 사용하여 TabularDataset를 필터링합니다. |
time_between |
지정된 시작 시간과 종료 시간 사이에 TabularDataset를 필터링합니다. |
time_recent |
최근 데이터의 지정된 기간(양)만 포함하도록 TabularDataset를 필터링합니다. |
to_csv_files |
현재 데이터 세트를 CSV 파일이 포함된 FileDataset으로 변환합니다. 결과 데이터 세트에는 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 CSV 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다. |
to_dask_dataframe |
비고 이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요. 데이터 세트의 데이터를 지연적으로 읽을 수 있는 Dask DataFrame을 반환합니다. |
to_pandas_dataframe |
데이터 세트의 모든 레코드를 pandas DataFrame으로 로드합니다. |
to_parquet_files |
현재 데이터 세트를 Parquet 파일이 포함된 FileDataset으로 변환합니다. 결과 데이터 세트에는 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 Parquet 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다. |
to_spark_dataframe |
데이터 세트의 모든 레코드를 Spark DataFrame으로 로드합니다. |
with_timestamp_columns |
데이터 세트에 대한 타임스탬프 열을 정의합니다. |
download
비고
이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요.
데이터 세트에서 정의한 파일 스트림을 로컬 경로로 다운로드합니다.
download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)
매개 변수
Name | Description |
---|---|
stream_column
필수
|
다운로드할 스트림 열입니다. |
target_path
필수
|
파일을 다운로드할 로컬 디렉터리입니다. None이면 데이터가 임시 디렉터리에 다운로드됩니다. |
overwrite
필수
|
기존 파일을 덮어쓸지 여부를 나타냅니다. 기본값은 False입니다. 덮어쓰기가 True로 설정된 경우 기존 파일을 덮어씁니다. 그렇지 않으면 예외가 발생합니다. |
ignore_not_found
필수
|
데이터 세트에서 가리키는 일부 파일을 찾을 수 없는 경우 다운로드 실패 여부를 나타냅니다. 기본값은 True입니다. ignore_not_found False로 설정된 경우 어떤 이유로든 파일 다운로드가 실패하면 다운로드가 실패합니다. 그렇지 않으면 찾을 수 없는 오류에 대한 경고가 기록되고 다른 오류 유형이 발생하지 않는 한 dowload가 성공합니다. |
반환
형식 | Description |
---|---|
다운로드한 각 파일에 대한 파일 경로 배열을 반환합니다. |
drop_columns
데이터 세트에서 지정된 열을 삭제합니다.
시간 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다.
drop_columns(columns)
매개 변수
Name | Description |
---|---|
columns
필수
|
삭제할 열의 이름 또는 이름 목록입니다. |
반환
형식 | Description |
---|---|
지정된 열이 삭제된 새 TabularDataset 개체를 반환합니다. |
filter
비고
이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요.
지정된 식과 일치하는 레코드만 남겨두고 데이터를 필터링합니다.
filter(expression)
매개 변수
Name | Description |
---|---|
expression
필수
|
평가할 식입니다. |
반환
형식 | Description |
---|---|
수정된 데이터 세트(등록 취소됨)입니다. |
설명
식은 열 이름으로 데이터 세트를 인덱싱하여 시작합니다. 다양한 함수와 연산자를 지원하며 논리 연산자를 사용하여 결합할 수 있습니다. 결과 식은 데이터 끌어오기가 발생할 때 정의되는 위치가 아니라 각 레코드에 대해 지연 계산됩니다.
dataset['myColumn'] > dataset['columnToCompareAgainst']
dataset['myColumn'].starts_with('prefix')
get_profile
비고
이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요.
작업 영역의 이 데이터 세트 또는 동일한 데이터 세트에 대해 제출된 최신 프로필 실행에서 데이터 프로필을 가져옵니다.
get_profile(workspace=None)
매개 변수
Name | Description |
---|---|
workspace
필수
|
프로필 실행이 제출된 작업 영역입니다. 기본값은 이 데이터 세트의 작업 영역입니다. 데이터 세트가 작업 영역에 연결되지 않은 경우 필요합니다. 작업 영역에 대한 자세한 내용은 참조 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace 하세요. |
반환
형식 | Description |
---|---|
DatasetProfile 형식의 최신 프로필 실행에서의 프로필 결과입니다. |
get_profile_runs
비고
이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요.
작업 영역에서 이 데이터 세트 또는 동일한 데이터 세트와 연결된 이전 프로필 실행을 반환합니다.
get_profile_runs(workspace=None)
매개 변수
Name | Description |
---|---|
workspace
필수
|
프로필 실행이 제출된 작업 영역입니다. 기본값은 이 데이터 세트의 작업 영역입니다. 데이터 세트가 작업 영역에 연결되지 않은 경우 필요합니다. 작업 영역에 대한 자세한 내용은 참조 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace 하세요. |
반환
형식 | Description |
---|---|
azureml.core.Run 형식의 iterator 개체입니다. |
keep_columns
지정된 열을 유지하고 데이터 세트에서 다른 모든 열을 삭제합니다.
시간 열이 삭제되면 반환된 데이터 세트에 대해서도 해당 기능이 삭제됩니다.
keep_columns(columns, validate=False)
매개 변수
Name | Description |
---|---|
columns
필수
|
유지할 열의 이름 또는 이름 목록입니다. |
validate
필수
|
반환된 데이터 세트에서 데이터를 로드할 수 있는지 여부를 나타냅니다. 기본값은 False입니다. 유효성 검사를 수행하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다. |
반환
형식 | Description |
---|---|
지정된 열만 보관된 새 TabularDataset 개체를 반환합니다. |
mount
비고
이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요.
데이터 세트에서 로컬 파일로 정의한 파일 스트림을 탑재하기 위한 컨텍스트 관리자를 만듭니다.
mount(stream_column, mount_point=None)
매개 변수
Name | Description |
---|---|
stream_column
필수
|
탑재할 스트림 열입니다. |
mount_point
필수
|
파일을 탑재할 로컬 디렉터리입니다. None이면 데이터가 임시 디렉터리에 탑재되며 MountContext.mount_point 인스턴스 메서드 를 호출하여 찾을 수 있습니다. |
반환
형식 | Description |
---|---|
<xref:azureml.dataprep.fuse.daemon.MountContext>
|
탑재의 수명 주기를 관리하기 위한 컨텍스트 관리자를 반환합니다. |
partition_by
분할된 데이터는 복사되고 대상에서 지정한 대상으로 출력됩니다.
파티션 형식으로 출력된 데이터 경로에서 데이터 세트를 만들고, 이름이 제공되면 데이터 세트를 등록하고, 파티션을 사용하여 새 데이터 경로에 대한 데이터 세트를 반환합니다.
ds = Dataset.get_by_name('test') # indexed by country, state, partition_date
# #1: call partition_by locally
new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
target=DataPath(datastore, "repartition"))
partition_keys = newds.partition_keys # ['country']
# new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)
매개 변수
Name | Description |
---|---|
partition_keys
필수
|
필수, 파티션 키 |
target
필수
|
필수 요소로, 데이터 프레임 parquet 데이터를 업로드할 데이터 저장소 경로입니다. 충돌을 방지하기 위해 대상 경로 아래에 guid 폴더가 생성됩니다. |
name
필수
|
선택 사항인 등록 이름입니다. |
show_progress
필수
|
선택 사항으로, 콘솔에서 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다. |
partition_as_file_dataset
필수
|
선택 사항으로 filedataset을 반환할지 여부를 나타냅니다. 기본값은 False입니다. |
반환
형식 | Description |
---|---|
저장된 데이터 세트 또는 등록된 데이터 세트입니다. |
random_split
데이터 세트의 레코드를 지정된 백분율에 따라 임의로 두 부분으로 분할합니다.
첫 번째 데이터 세트에는 총 레코드의 약 percentage
과 나머지 레코드의 두 번째 데이터 세트가 포함됩니다.
random_split(percentage, seed=None)
매개 변수
Name | Description |
---|---|
percentage
필수
|
데이터 세트를 분할할 대략적인 백분율입니다. 0.0에서 1.0 사이의 숫자여야 합니다. |
seed
필수
|
임의 생성기에 사용할 선택적 시드입니다. |
반환
형식 | Description |
---|---|
분할 후 두 데이터 세트를 나타내는 새 TabularDataset 개체의 튜플을 반환합니다. |
skip
지정된 개수로 데이터 세트의 맨 위에서 레코드를 건너뜁니다.
skip(count)
매개 변수
Name | Description |
---|---|
count
필수
|
건너뛸 레코드 수입니다. |
반환
형식 | Description |
---|---|
레코드를 건너뛴 데이터 세트를 나타내는 새 TabularDataset 개체를 반환합니다. |
submit_profile_run
비고
이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요.
실험 실행을 제출하여 데이터 프로필을 계산합니다.
데이터 프로필은 열 형식, 누락 값 등과 같은 데이터에 대한 유용한 정보를 제공하여 입력 데이터를 이해하고 변칙 및 누락된 값을 식별하는 데 매우 유용할 수 있습니다.
submit_profile_run(compute_target, experiment, cache_datastore_name=None)
매개 변수
Name | Description |
---|---|
compute_target
필수
|
프로필 계산 실험을 실행할 컴퓨팅 대상입니다. 로컬 컴퓨팅을 사용하도록 'local'을 지정합니다. 컴퓨팅 대상에 대한 자세한 내용은 참조 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget 하세요. |
experiment
필수
|
실험 개체입니다. 실험에 대한 자세한 내용은 참조 https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment 하세요. |
cache_datastore_name
필수
|
프로필 캐시를 저장할 데이터 저장소의 이름(None인 경우 기본 데이터 저장소가 사용됨) |
반환
형식 | Description |
---|---|
DatasetProfileRun 클래스 형식의 개체입니다. |
take
데이터 세트의 맨 위에서 지정된 개수로 레코드 샘플을 가져옵니다.
take(count)
매개 변수
Name | Description |
---|---|
count
필수
|
취할 레코드 수입니다. |
반환
형식 | Description |
---|---|
샘플링된 데이터 세트를 나타내는 새 TabularDataset 개체를 반환합니다. |
take_sample
데이터 세트의 임의 레코드 샘플을 지정된 확률로 대략적으로 가져옵니다.
take_sample(probability, seed=None)
매개 변수
Name | Description |
---|---|
probability
필수
|
샘플에 포함되는 레코드의 확률입니다. |
seed
필수
|
임의 생성기에 사용할 선택적 시드입니다. |
반환
형식 | Description |
---|---|
샘플링된 데이터 세트를 나타내는 새 TabularDataset 개체를 반환합니다. |
time_after
지정된 시작 시간 후에 타임스탬프를 사용하여 TabularDataset를 필터링합니다.
time_after(start_time, include_boundary=True, validate=True)
매개 변수
Name | Description |
---|---|
start_time
필수
|
데이터 필터링에 대한 하한입니다. |
include_boundary
필수
|
경계 시간( |
validate
필수
|
지정된 열이 데이터 세트에 있는지 여부를 나타냅니다. 기본값은 True입니다. 유효성 검사를 수행하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다. |
반환
형식 | Description |
---|---|
필터링된 새 데이터 세트가 있는 TabularDataset입니다. |
time_before
지정된 종료 시간 전에 타임스탬프를 사용하여 TabularDataset를 필터링합니다.
time_before(end_time, include_boundary=True, validate=True)
매개 변수
Name | Description |
---|---|
end_time
필수
|
데이터 필터링을 위한 상한입니다. |
include_boundary
필수
|
경계 시간( |
validate
필수
|
지정된 열이 데이터 세트에 있는지 여부를 나타냅니다. 기본값은 True입니다. 유효성 검사를 수행하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다. |
반환
형식 | Description |
---|---|
필터링된 새 데이터 세트가 있는 TabularDataset입니다. |
time_between
지정된 시작 시간과 종료 시간 사이에 TabularDataset를 필터링합니다.
time_between(start_time, end_time, include_boundary=True, validate=True)
매개 변수
Name | Description |
---|---|
start_time
필수
|
데이터 필터링에 대한 하한입니다. |
end_time
필수
|
데이터 필터링을 위한 상한입니다. |
include_boundary
필수
|
경계 시간과 연결된 행( |
validate
필수
|
지정된 열이 데이터 세트에 있는지 여부를 나타냅니다. 기본값은 True입니다. 유효성 검사를 수행하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다. |
반환
형식 | Description |
---|---|
필터링된 새 데이터 세트가 있는 TabularDataset입니다. |
time_recent
최근 데이터의 지정된 기간(양)만 포함하도록 TabularDataset를 필터링합니다.
time_recent(time_delta, include_boundary=True, validate=True)
매개 변수
Name | Description |
---|---|
time_delta
필수
|
검색할 최근 데이터의 기간(양)입니다. |
include_boundary
필수
|
경계 시간( |
validate
필수
|
지정된 열이 데이터 세트에 있는지 여부를 나타냅니다. 기본값은 True입니다. 유효성 검사를 수행하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다. |
반환
형식 | Description |
---|---|
필터링된 새 데이터 세트가 있는 TabularDataset입니다. |
to_csv_files
현재 데이터 세트를 CSV 파일이 포함된 FileDataset으로 변환합니다.
결과 데이터 세트에는 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 CSV 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다.
to_csv_files(separator=',')
매개 변수
Name | Description |
---|---|
separator
필수
|
결과 파일의 값을 구분하는 데 사용할 구분 기호입니다. |
반환
형식 | Description |
---|---|
이 데이터 세트의 데이터를 포함하는 CSV 파일 집합이 있는 새 FileDataset 개체를 반환합니다. |
to_dask_dataframe
비고
이는 실험적 방법이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요.
데이터 세트의 데이터를 지연적으로 읽을 수 있는 Dask DataFrame을 반환합니다.
to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')
매개 변수
Name | Description |
---|---|
sample_size
필수
|
스키마 및 형식을 결정하기 위해 읽을 레코드 수입니다. |
dtypes
필수
|
예상 열과 해당 dtype을 지정하는 선택적 받아쓰기입니다. sample_size 제공된 경우 무시됩니다. |
on_error
필수
|
데이터 세트의 오류 값(예: 값을 구문 분석하는 동안 오류로 생성된 값)을 처리하는 방법입니다. 유효한 값은 null로 대체되는 'null'입니다. 및 'fail'이면 예외가 발생합니다. |
out_of_range_datetime
필수
|
Pandas에서 지원하는 범위를 벗어난 날짜-시간 값을 처리하는 방법입니다. 유효한 값은 null로 대체되는 'null'입니다. 및 'fail'이면 예외가 발생합니다. |
반환
형식 | Description |
---|---|
dask.dataframe.core.DataFrame |
to_pandas_dataframe
데이터 세트의 모든 레코드를 pandas DataFrame으로 로드합니다.
to_pandas_dataframe(on_error='null', out_of_range_datetime='null')
매개 변수
Name | Description |
---|---|
on_error
필수
|
데이터 세트의 오류 값(예: 값을 구문 분석하는 동안 오류로 생성된 값)을 처리하는 방법입니다. 유효한 값은 null로 대체되는 'null'입니다. 및 'fail'이면 예외가 발생합니다. |
out_of_range_datetime
필수
|
Pandas에서 지원하는 범위를 벗어난 날짜-시간 값을 처리하는 방법입니다. 유효한 값은 null로 대체되는 'null'입니다. 및 'fail'이면 예외가 발생합니다. |
반환
형식 | Description |
---|---|
pandas DataFrame을 반환합니다. |
to_parquet_files
현재 데이터 세트를 Parquet 파일이 포함된 FileDataset으로 변환합니다.
결과 데이터 세트에는 현재 데이터 세트의 데이터 파티션에 해당하는 하나 이상의 Parquet 파일이 포함됩니다. 이러한 파일은 다운로드하거나 읽을 때까지 구체화되지 않습니다.
to_parquet_files()
반환
형식 | Description |
---|---|
이 데이터 세트의 데이터를 포함하는 Parquet 파일 집합이 있는 새 FileDataset 개체를 반환합니다. |
to_spark_dataframe
데이터 세트의 모든 레코드를 Spark DataFrame으로 로드합니다.
to_spark_dataframe()
반환
형식 | Description |
---|---|
Spark DataFrame을 반환합니다. |
with_timestamp_columns
데이터 세트에 대한 타임스탬프 열을 정의합니다.
with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)
매개 변수
Name | Description |
---|---|
timestamp
필수
|
타임스탬프로 열 이름(fine_grain_timestamp이라고 함)(선택 사항)입니다. 기본값은 None(clear)입니다. |
partition_timestamp
필수
|
열 partition_timestamp 이름(거친 곡물 타임스탬프라고 함)(선택 사항)입니다. 기본값은 None(clear)입니다. |
validate
필수
|
지정된 열이 데이터 세트에 있는지 여부를 나타냅니다. 기본값은 False입니다. 유효성 검사를 수행하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다. |
반환
형식 | Description |
---|---|
타임스탬프 열이 정의된 새 TabularDataset을 반환합니다. |
설명
이 메서드는 타임스탬프로 사용할 열을 정의합니다. 데이터 세트의 타임스탬프 열을 사용하면 데이터를 시계열 데이터로 처리하고 추가 기능을 사용할 수 있습니다. 데이터 세트가 둘 다 timestamp (used to be referred as fine_grain_timestamp)
있고 partition_timestamp (used to be referred as coarse grain timestamp)
지정된 경우 두 열은 동일한 타임라인을 나타내야 합니다.