AdlaStep 클래스
Azure Data Lake Analytics를 사용하여 U-SQL 스크립트를 실행하는 Azure ML 파이프라인 단계를 만듭니다.
이 AdlaStep을 사용하는 예제는 Notebook https://aka.ms/pl-adla을 참조하세요.
Azure Data Lake Analytics를 사용하여 U-SQL 스크립트를 실행하는 Azure ML 파이프라인 단계를 만듭니다.
생성자
AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)
매개 변수
Name | Description |
---|---|
script_name
필수
|
[필수] 를 기준으로 |
name
|
단계의 이름입니다. 지정 Default value: None
|
inputs
|
입력 포트 바인딩 목록입니다. Default value: None
|
outputs
|
출력 포트 바인딩 목록입니다. Default value: None
|
params
|
이름-값 쌍의 사전입니다. Default value: None
|
degree_of_parallelism
|
이 작업에 사용할 병렬 처리 수준입니다. 0보다 커야 합니다. 0보다 작게 설정하면 기본값은 1입니다. Default value: None
|
priority
|
현재 작업에 사용할 우선 순위 값입니다. 숫자가 낮을수록 우선 순위가 높습니다. 기본적으로 작업의 우선 순위는 1000입니다. 지정한 값은 0보다 커야 합니다. Default value: None
|
runtime_version
|
Data Lake Analytics 엔진의 런타임 버전입니다. Default value: None
|
compute_target
|
[필수] 이 작업에 사용할 ADLA 컴퓨팅입니다. Default value: None
|
source_directory
|
스크립트, 어셈블리 등을 포함하는 폴더입니다. Default value: None
|
allow_reuse
|
동일한 설정으로 다시 실행할 때 단계가 이전 결과를 다시 사용해야 하는지 여부를 나타냅니다. 재사용은 기본적으로 사용하도록 설정됩니다. 단계 내용(스크립트/종속성)과 입력 및 매개 변수가 변경되지 않은 상태로 유지되면 이 단계의 이전 실행의 출력이 다시 사용됩니다. 단계를 다시 사용할 때 작업을 컴퓨팅에 제출하는 대신 이전 실행의 결과를 후속 단계에서 즉시 사용할 수 있습니다. Azure Machine Learning 데이터 세트를 입력으로 사용하는 경우 다시 사용은 기본 데이터가 변경되었는지 여부가 아니라 데이터 세트의 정의가 변경되었는지 여부에 따라 결정됩니다. Default value: True
|
version
|
단계의 기능 변경을 나타내는 선택적 버전 태그입니다. Default value: None
|
hash_paths
|
사용되지 않음: 더 이상 필요하지 않습니다. 단계 내용의 변경 내용을 확인할 때 해시할 경로 목록입니다. 변경 내용이 검색되지 않은 경우 파이프라인은 이전 실행의 단계 내용을 다시 사용합니다. 기본적으로 Default value: None
|
script_name
필수
|
[필수] 를 기준으로 |
name
필수
|
단계의 이름입니다. 지정 |
inputs
필수
|
입력 포트 바인딩 목록 |
outputs
필수
|
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]
출력 포트 바인딩 목록입니다. |
params
필수
|
이름-값 쌍의 사전입니다. |
degree_of_parallelism
필수
|
이 작업에 사용할 병렬 처리 수준입니다. 0보다 커야 합니다. 0보다 작게 설정하면 기본값은 1입니다. |
priority
필수
|
현재 작업에 사용할 우선 순위 값입니다. 숫자가 낮을수록 우선 순위가 높습니다. 기본적으로 작업의 우선 순위는 1000입니다. 지정한 값은 0보다 커야 합니다. |
runtime_version
필수
|
Data Lake Analytics 엔진의 런타임 버전입니다. |
compute_target
필수
|
[필수] 이 작업에 사용할 ADLA 컴퓨팅입니다. |
source_directory
필수
|
스크립트, 어셈블리 등을 포함하는 폴더입니다. |
allow_reuse
필수
|
동일한 설정으로 다시 실행할 때 단계가 이전 결과를 다시 사용해야 하는지 여부를 나타냅니다. 재사용은 기본적으로 사용하도록 설정됩니다. 단계 내용(스크립트/종속성)과 입력 및 매개 변수가 변경되지 않은 상태로 유지되면 이 단계의 이전 실행의 출력이 다시 사용됩니다. 단계를 다시 사용할 때 작업을 컴퓨팅에 제출하는 대신 이전 실행의 결과를 후속 단계에서 즉시 사용할 수 있습니다. Azure Machine Learning 데이터 세트를 입력으로 사용하는 경우 다시 사용은 기본 데이터가 변경되었는지 여부가 아니라 데이터 세트의 정의가 변경되었는지 여부에 따라 결정됩니다. |
version
필수
|
단계의 기능 변경을 나타내는 선택적 버전 태그입니다. |
hash_paths
필수
|
사용되지 않음: 더 이상 필요하지 않습니다. 단계 내용의 변경 내용을 확인할 때 해시할 경로 목록입니다. 변경 내용이 검색되지 않은 경우 파이프라인은 이전 실행의 단계 내용을 다시 사용합니다. 기본적으로 |
설명
스크립트에서 @@name@@ 구문을 사용하여 입력, 출력 및 매개 변수를 참조할 수 있습니다.
이름이 입력 또는 출력 포트 바인딩의 이름이면 스크립트에서 발생하는 @@name@@ 해당 포트 바인딩의 실제 데이터 경로로 바뀝니다.
이름이params dict의 키와 일치하면 @@name@@ 발생되는 모든 항목이 dict의 해당 값으로 바뀝니다.
AdlaStep은 Data Lake Analytics 계정의 기본 Data Lake Storage에 저장된 데이터에서만 작동합니다. 데이터가 기본이 아닌 스토리지에 있는 경우 a DataTransferStep 를 사용하여 데이터를 기본 스토리지에 복사합니다. Azure Portal에서 Data Lake Analytics 계정을 연 다음 왼쪽 창의 설정 아래에서 '데이터 원본' 항목으로 이동하여 기본 스토리지를 찾을 수 있습니다.
다음 예제에서는 Azure Machine Learning 파이프라인에서 AdlaStep을 사용하는 방법을 보여 줍니다.
adla_step = AdlaStep(
name='extract_employee_names',
script_name='sample_script.usql',
source_directory=sample_folder,
inputs=[sample_input],
outputs=[sample_output],
compute_target=adla_compute)
전체 샘플은 다음에서 사용할 수 있습니다. https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb
메서드
create_node |
AdlaStep 단계에서 노드를 만들고 지정된 그래프에 추가합니다. 이 메서드는 직접 사용할 수 없습니다. 이 단계로 파이프라인이 인스턴스화되면 Azure ML은 워크플로를 나타내는 파이프라인 그래프에 단계를 추가할 수 있도록 이 메서드를 통해 필요한 매개 변수를 자동으로 전달합니다. |
create_node
AdlaStep 단계에서 노드를 만들고 지정된 그래프에 추가합니다.
이 메서드는 직접 사용할 수 없습니다. 이 단계로 파이프라인이 인스턴스화되면 Azure ML은 워크플로를 나타내는 파이프라인 그래프에 단계를 추가할 수 있도록 이 메서드를 통해 필요한 매개 변수를 자동으로 전달합니다.
create_node(graph, default_datastore, context)
매개 변수
Name | Description |
---|---|
graph
필수
|
그래프 개체입니다. |
default_datastore
필수
|
기본 데이터 저장소입니다. |
context
필수
|
<xref:azureml.pipeline.core._GraphContext>
그래프 컨텍스트입니다. |
반환
형식 | Description |
---|---|
노드 개체입니다. |