dataset_partition_prep 模块

包含用于指定数据集分区准备的功能。

使用 opendatasets 需要数据分区的类(如 NycTlcGreen 类)时,会自动进行分区准备。

函数

prep_partition_datetime

准备分区路径“year=\d+/month=\d+/”。

prep_partition_datetime(dflow: EnginelessDataflow, start_date: datetime, end_date: datetime, pattern: List[str])

参数

名称 说明
dflow
必需
<xref:azureml.dataprep.Dataflow>

dataprep 的实例。数据流。

start_date
必需

数据集的开始日期时间。

end_date
必需

数据集的结束日期/时间。

pattern
必需

日期时间模式。

prep_partition_puYear_puMonth

准备分区路径“year=\d+/month=\d+/”。

prep_partition_puYear_puMonth(dflow: EnginelessDataflow, start_date: datetime, end_date: datetime, *, pattern: List[str] = ['puYear', 'puMonth'])

参数

名称 说明
dflow
必需
<xref:azureml.dataprep.Dataflow>

dataprep 的实例。数据流。

start_date
必需

数据集的开始日期时间。

end_date
必需

数据集的结束日期/时间。

pattern
必需

日期时间模式。

仅限关键字的参数

名称 说明
pattern
默认值: ['puYear', 'puMonth']

prep_partition_year

准备分区路径“year=\d+/month=\d+/”。

prep_partition_year(dflow: EnginelessDataflow, start_date: datetime, end_date: datetime, *, pattern: List[str] = ['year'])

参数

名称 说明
dflow
必需
<xref:azureml.dataprep.Dataflow>

dataprep 的实例。数据流。

start_date
必需

数据集的开始日期时间。

end_date
必需

数据集的结束日期/时间。

pattern
必需

日期时间模式。

仅限关键字的参数

名称 说明
pattern
默认值: ['year']

prep_partition_year_month

准备分区路径“year=\d+/month=\d+/”。

prep_partition_year_month(dflow: EnginelessDataflow, start_date: datetime, end_date: datetime, *, pattern: List[str] = ['year', 'month'])

参数

名称 说明
dflow
必需
<xref:azureml.dataprep.Dataflow>

dataprep 的实例。数据流。

start_date
必需

数据集的开始日期时间。

end_date
必需

数据集的结束日期/时间。

pattern
必需

日期时间模式。

仅限关键字的参数

名称 说明
pattern
默认值: ['year', 'month']

prep_partition_year_month_day

准备分区路径“year=\d+/month=\d+/”。

prep_partition_year_month_day(dflow: EnginelessDataflow, start_date: datetime, end_date: datetime, *, pattern: List[str] = ['year', 'month', 'day'])

参数

名称 说明
dflow
必需
<xref:azureml.dataprep.Dataflow>

dataprep 的实例。数据流。

start_date
必需

数据集的开始日期时间。

end_date
必需

数据集的结束日期/时间。

pattern
必需

日期时间模式。

仅限关键字的参数

名称 说明
pattern
默认值: ['year', 'month', 'day']