다음을 통해 공유


Azure Machine Learning CLI와 구성 요소를 사용하여 기계 학습 파이프라인 만들기 및 실행

적용 대상:Azure CLI ml 확장 v2(현재)

이 문서에서는 Azure CLI 및 구성 요소를 사용하여 기계 학습 파이프라인을 만들고 실행하는 방법을 알아봅니다. 구성 요소를 사용하지 않고 파이프라인을 만들 수 있지만 구성 요소는 유연성을 제공하고 재사용을 사용하도록 설정합니다. Azure Machine Learning 파이프라인은 YAML에서 정의하고 CLI에서 실행하거나, Python에서 작성하거나, 끌어서 놓기 UI를 통해 Azure Machine Learning 스튜디오 디자이너에서 작성할 수 있습니다. 이 문서에서는 CLI에 중점을 둡니다.

필수 조건

추천 참고 자료

구성 요소를 사용하여 첫 번째 파이프라인 만들기

먼저 예제를 사용하여 구성 요소가 있는 파이프라인을 만듭니다. 이렇게 하면 Azure Machine Learning에서 파이프라인 및 구성 요소의 모양에 대한 초기 인상이 표시됩니다.

cli/jobs/pipelines-with-components/basics 리포지토리의azureml-examples 디렉터리에서 하위 디렉터리로 3b_pipeline_with_data 이동합니다. 이 디렉터리에는 세 가지 유형의 파일이 있습니다. 사용자 고유의 파이프라인을 빌드할 때 만들어야 하는 파일입니다.

  • pipeline.yml. 이 YAML 파일은 기계 학습 파이프라인을 정의합니다. 전체 기계 학습 작업을 다단계 워크플로로 분할하는 방법을 설명합니다. 예를 들어 기록 데이터를 사용하여 판매 예측 모델을 학습시키는 간단한 기계 학습 작업을 고려해 보세요. 데이터 처리, 모델 학습 및 모델 평가 단계를 포함하는 순차 워크플로를 빌드할 수 있습니다. 각 단계는 잘 정의된 인터페이스를 가지고 있으며 독립적으로 개발, 테스트 및 최적화할 수 있는 구성 요소입니다. 또한 파이프라인 YAML은 자식 단계가 파이프라인의 다른 단계에 연결하는 방법을 정의합니다. 예를 들어 모델 학습 단계에서는 모델 파일을 생성하고 모델 파일은 모델 평가 단계로 전달됩니다.

  • component.yml. 이러한 YAML 파일은 구성 요소를 정의합니다. 여기에는 다음 정보가 포함됩니다.

    • 메타데이터: 이름, 표시 이름, 버전, 설명, 형식 등입니다. 메타데이터는 구성 요소를 설명하고 관리하는 데 도움이 됩니다.
    • 인터페이스: 입력 및 출력. 예를 들어 모델 학습 구성 요소는 학습 데이터와 epoch 수를 입력으로 사용하고 학습된 모델 파일을 출력으로 생성합니다. 인터페이스가 정의되면 다른 팀에서 구성 요소를 독립적으로 개발하고 테스트할 수 있습니다.
    • 명령, 코드 및 환경: 구성 요소를 실행하는 명령, 코드 및 환경입니다. 이 명령은 구성 요소를 실행하는 셸 명령입니다. 코드는 일반적으로 소스 코드 디렉터리를 참조합니다. 환경은 Azure Machine Learning 환경(큐레이팅 또는 고객이 만든), Docker 이미지 또는 conda 환경일 수 있습니다.
  • component_src. 특정 구성 요소에 대한 소스 코드 디렉터리입니다. 구성 요소에서 실행되는 소스 코드를 포함합니다. Python, R 등 원하는 언어를 사용할 수 있습니다. 코드는 셸 명령에 의해 실행되어야 합니다. 소스 코드는 셸 명령줄에서 몇 가지 입력을 사용하여 이 단계가 실행되는 방식을 제어할 수 있습니다. 예를 들어 학습 단계에서는 학습 데이터, 학습 속도 및 Epoch 수를 사용하여 학습 프로세스를 제어할 수 있습니다. 셸 명령의 인수는 입력 및 출력을 코드에 전달하는 데 사용됩니다.

이제 예제를 사용하여 파이프라인을 만듭니다 3b_pipeline_with_data . 각 파일은 다음 섹션에서 자세히 설명합니다.

먼저 다음 명령을 사용하여 사용 가능한 컴퓨팅 리소스를 나열합니다.

az ml compute list

없는 경우, 다음 명령을 실행하여 cpu-cluster라는 이름의 클러스터를 만듭니다.

참고 항목

서버리스 컴퓨팅을 사용하려면 이 단계를 건너뛰세요.

az ml compute create -n cpu-cluster --type amlcompute --min-instances 0 --max-instances 10

이제 다음 명령을 실행하여 pipeline.yml 파일에 정의된 파이프라인 작업을 만듭니다. 컴퓨팅 대상은 Pipeline.yml 파일에서 azureml:cpu-cluster로 참조됩니다. 컴퓨팅 대상이 다른 이름을 사용하는 경우 pipeline.yml 파일에서 업데이트해야 합니다.

az ml job create --file pipeline.yml

다음을 포함하여 파이프라인 작업에 대한 정보가 포함된 JSON 사전을 받아야 합니다.

설명
name 작업의 GUID 기반 이름입니다.
experiment_name Studio에서 작업이 구성되는 이름입니다.
services.Studio.endpoint 파이프라인 작업을 모니터링하고 검토하기 위한 URL입니다.
status 작업의 상태입니다. 그것은 아마 이 시점에서 Preparing일 것입니다.

URL로 services.Studio.endpoint 이동하여 파이프라인의 시각화를 확인합니다.

파이프라인 시각화의 스크린샷.

파이프라인 정의 YAML의 이해

이제 3b_pipeline_with_data/pipeline.yml 파일에서 파이프라인 정의를 살펴보겠습니다.

참고 항목

서버리스 컴퓨팅을 사용하려면 이 파일에서 default_compute: azureml:cpu-clusterdefault_compute: azureml:serverless로 바꿉니다.

$schema: https://azuremlschemas.azureedge.net/latest/pipelineJob.schema.json
type: pipeline

display_name: 3b_pipeline_with_data
description: Pipeline with 3 component jobs with data dependencies

settings:
  default_compute: azureml:cpu-cluster

outputs:
  final_pipeline_output:
    mode: rw_mount

jobs:
  component_a:
    type: command
    component: ./componentA.yml
    inputs:
      component_a_input: 
        type: uri_folder
        path: ./data

    outputs:
      component_a_output: 
        mode: rw_mount
  component_b:
    type: command
    component: ./componentB.yml
    inputs:
      component_b_input: ${{parent.jobs.component_a.outputs.component_a_output}}
    outputs:
      component_b_output: 
        mode: rw_mount
  component_c:
    type: command
    component: ./componentC.yml
    inputs:
      component_c_input: ${{parent.jobs.component_b.outputs.component_b_output}}
    outputs:
      component_c_output: ${{parent.outputs.final_pipeline_output}}
      #  mode: upload

다음 표에서는 파이프라인 YAML 스키마의 가장 일반적으로 사용되는 필드를 설명합니다. 자세한 내용은 전체 파이프라인 YAML 스키마를 참조하세요.

설명
type 필수입니다. 작업 유형입니다. 파이프라인 작업에는 반드시 pipeline이어야 합니다.
display_name 스튜디오 UI에 있는 파이프라인 작업의 표시 이름입니다. 스튜디오 UI에서 편집할 수 있습니다. 작업 영역의 모든 작업에서 고유할 필요는 없습니다.
jobs 필수입니다. 파이프라인 내에서 단계로 실행할 개별 작업 집합의 사전입니다. 이러한 작업은 부모 파이프라인 작업의 자식 작업으로 간주됩니다. 현재 릴리스에서 파이프라인에서 지원되는 작업 유형은 다음과 같습니다 commandsweep.
inputs 파이프라인 작업에 대한 입력 사전입니다. 키는 작업 컨텍스트 내의 입력 이름이며 값은 입력 값입니다. ${{ parent.inputs.<input_name> }} 식을 사용하여 이러한 파이프라인 입력을 파이프라인에서 개별 단계 작업의 입력으로 참조할 수 있습니다.
outputs 파이프라인 작업의 출력 구성 사전입니다. 키는 작업 컨텍스트의 출력 이름이며 값은 출력 구성입니다. ${{ parents.outputs.<output_name> }} 표현을 사용하여 파이프라인에서 개별 단계 작업의 출력을 통해 이러한 파이프라인 출력을 참조할 수 있습니다.

3b_pipeline_with_data 예제에는 3단계 파이프라인이 포함되어 있습니다.

  • 세 단계는 jobs에 정의되어 있습니다. 세 단계 모두 형식 command입니다. 각 단계의 정의는 해당 component*.yml 파일에 있습니다. 구성 요소 YAML 파일은 3b_pipeline_with_data 디렉터리에서 볼 수 있습니다. componentA.yml 은 다음 섹션에서 설명합니다.
  • 이 파이프라인에는 실제 파이프라인에서 흔히 볼 수 있는 데이터 종속성이 있습니다. 구성 요소 A는 (줄 18-21) 아래 ./data 의 로컬 폴더에서 데이터 입력을 가져와서 해당 출력을 구성 요소 B(줄 29)에 전달합니다. 구성 요소 A의 출력은 ${{parent.jobs.component_a.outputs.component_a_output}}로 참조할 수 있습니다.
  • default_compute 는 파이프라인의 기본 컴퓨팅을 정의합니다. 아래 jobs 의 구성 요소가 다른 컴퓨팅을 정의하는 경우 구성 요소별 설정이 적용됩니다.

데이터 예제를 사용한 파이프라인의 스크린샷.

파이프라인에서 데이터 읽기 및 쓰기

한 가지 일반적인 시나리오는 파이프라인에서 데이터를 읽고 쓰는 것입니다. Azure Machine Learning에서 동일한 스키마를 사용하여 모든 유형의 작업(파이프라인 작업, 명령 작업 및 스윕 작업)에 대한 데이터를 읽고 씁니다 . 다음은 일반적인 시나리오에 대해 파이프라인에서 데이터를 사용하는 예제입니다.

구성 요소 정의 YAML의 이해

구성 요소를 정의하는 YAML의 예인 componentA.yml 파일은 다음과 같습니다.

$schema: https://azuremlschemas.azureedge.net/latest/commandComponent.schema.json
type: command

name: component_a
display_name: componentA
version: 1

inputs:
  component_a_input:
    type: uri_folder

outputs:
  component_a_output:
    type: uri_folder

code: ./componentA_src

environment: 
  image: python

command: >-
  python hello.py --componentA_input ${{inputs.component_a_input}} --componentA_output ${{outputs.component_a_output}}

이 표에서는 구성 요소 YAML의 가장 일반적으로 사용되는 필드를 정의합니다. 자세한 내용은 전체 구성 요소 YAML 스키마를 참조하세요.

설명
name 필수입니다. 구성 요소의 이름입니다. Azure Machine Learning 작업 영역에서 고유해야 합니다. 소문자로 시작해야 합니다. 소문자, 숫자 및 밑줄(_)이 허용됩니다. 최대 길이는 255자입니다.
display_name 스튜디오 UI에 있는 구성 요소의 표시 이름입니다. 작업 영역 내에서 고유할 필요는 없습니다.
command 필수입니다. 실행할 명령입니다.
code 구성 요소에 업로드하고 사용할 소스 코드 디렉터리에 대한 로컬 경로입니다.
environment 필수입니다. 구성 요소를 실행하는 데 사용되는 환경입니다.
inputs 구성 요소 입력의 사전입니다. 키는 구성 요소 컨텍스트 내의 입력 이름이며 값은 구성 요소 입력 정의입니다. 명령에서 입력을 참조하려면 ${{ inputs.<input_name> }} 식을 사용하십시오.
outputs 구성 요소 출력의 사전입니다. 키는 구성 요소의 컨텍스트 내에서 출력에 대한 이름이며, 값은 구성 요소 출력 정의입니다. 명령에서 출력을 참조하여 사용하기 위해 ${{ outputs.<output_name> }} 표현을 사용할 수 있습니다.
is_deterministic 구성 요소 입력이 변경되지 않는 경우 이전 작업의 결과를 다시 사용할지 여부입니다. 기본값은 true입니다. 이 설정을 기본적으로 재사용이라고도합니다. false가 설정될 때의 일반적인 시나리오는 클라우드 스토리지나 URL에서 데이터를 강제로 다시 로드하도록 하는 것입니다.

3b_pipeline_with_data/componentA.yml 예제에서 구성 요소 A에는 부모 파이프라인의 다른 단계에 연결할 수 있는 하나의 데이터 입력과 하나의 데이터 출력이 있습니다. 구성 요소 YAML의 code 섹션에 있는 모든 파일은 파이프라인 작업이 제출될 때 Azure Machine Learning에 업로드됩니다. 이 예제에서는 아래 ./componentA_src 파일이 업로드됩니다. ( componentA.yml 16줄) 스튜디오 UI에서 업로드된 소스 코드를 볼 수 있습니다. 다음 스크린샷과 같이 그래프에서 componentA 단계를 두 번 클릭하고 코드 탭으로 이동합니다. hello-world 스크립트가 간단한 인쇄를 수행하며, 현재 날짜와 시간을 componentA_output 경로에 기록하는 것을 볼 수 있습니다. 구성 요소는 입력을 받아 명령줄을 통해 출력을 제공합니다. hello.py에서 argparse를 통해 처리됩니다.

데이터 예제가 있는 파이프라인의 스크린샷. 구성 요소 A를 표시합니다.

입력 및 출력

입력 및 출력은 구성 요소의 인터페이스를 정의합니다. 입력 및 출력은 리터럴 값(형식string, numberinteger또는 ) 또는 boolean입력 스키마가 포함된 개체일 수 있습니다.

개체 입력(형식uri_file, uri_folder, mltablemlflow_model또는custom_model)은 부모 파이프라인 작업의 다른 단계에 연결하여 데이터/모델을 다른 단계로 전달할 수 있습니다. 파이프라인 그래프에서 개체 형식 입력은 연결 점으로 렌더링됩니다.

리터럴 값 입력 (string, number, integer, boolean)은 런타임에 구성 요소에 전달할 수 있는 매개 변수입니다. 필드에 리터럴 입력의 기본값을 추가할 수 있습니다 default . numberinteger 유형의 경우, minmax 필드를 사용하여 최소값과 최대값을 추가할 수도 있습니다. 입력 값이 최소값보다 작거나 최댓값보다 큰 경우 파이프라인은 유효성 검사 시 실패합니다. 파이프라인 작업을 제출하기 전에 유효성 검사가 수행되므로 시간을 절약할 수 있습니다. 유효성 검사는 CLI, Python SDK 및 디자이너 UI에 대해 작동합니다. 다음 스크린샷은 디자이너 UI의 유효성 검사 예제를 보여 줍니다. 마찬가지로 필드에 허용되는 값을 정의할 enum 수 있습니다.

선형 회귀 모델 학습 구성 요소의 입력 및 출력 스크린샷.

구성 요소에 입력을 추가하려면 다음 세 곳에서 편집해야 합니다.

  • inputs 구성 요소 YAML의 필드입니다.
  • command 구성 요소 YAML의 필드입니다.
  • 구성 요소 소스 코드에서 명령줄 입력을 처리합니다.

이러한 위치는 이전 스크린샷에서 녹색 상자로 표시됩니다.

입력 및 출력에 대한 자세한 내용은 구성 요소 및 파이프라인에 대한 입력 및 출력 관리를 참조하세요.

환경

환경은 구성 요소가 실행되는 환경입니다. Azure Machine Learning 환경(큐레이팅 또는 사용자 지정 등록), Docker 이미지 또는 conda 환경일 수 있습니다. 다음 예제를 참조하세요.

재사용 및 공유를 위한 구성 요소 등록

일부 구성 요소는 특정 파이프라인과 관련이 있지만 구성 요소의 진정한 이점은 재사용 및 공유에서 비롯됩니다. Machine Learning 작업 영역에 구성 요소를 등록하여 다시 사용할 수 있도록 할 수 있습니다. 등록된 구성 요소는 자동 버전 관리를 지원하므로 구성 요소를 업데이트할 수 있지만 이전 버전이 필요한 파이프라인이 계속 작동하도록 합니다.

azureml-examples 리포지토리에서 cli/jobs/pipelines-with-components/basics/1b_e2e_registered_components 디렉터리로 이동합니다.

구성 요소를 등록하려면 az ml component create 명령을 사용합니다.

az ml component create --file train.yml
az ml component create --file score.yml
az ml component create --file eval.yml

이러한 명령이 실행을 완료하면 스튜디오에서 Assets구성 요소 아래에 있는 구성 요소들을 볼 수 있습니다.

스튜디오의 스크린샷. 등록된 구성 요소를 보여 줍니다.

구성 요소를 선택합니다. 각 버전의 구성 요소에 대한 자세한 정보가 표시됩니다.

세부 정보 탭에는 구성 요소 이름, 만든 사용자 및 버전과 같은 기본 정보가 표시됩니다. 태그 및 설명에 대한 편집 가능한 필드가 있습니다. 태그를 사용하여 검색 키워드를 추가할 수 있습니다. 설명 필드는 Markdown 서식을 지원합니다. 구성 요소의 기능 및 기본 사용을 설명하는 데 사용해야 합니다.

작업 탭에 구성 요소를 사용하는 모든 작업의 기록이 표시됩니다.

파이프라인 작업 YAML 파일에서 등록된 구성 요소 사용

이제 파이프라인 YAML에서 등록된 구성 요소를 사용하는 방법의 예로 사용합니다 1b_e2e_registered_components . 디렉터리로 1b_e2e_registered_components 이동하여 파일을 엽니다 pipeline.yml . inputsoutputs 필드의 키 및 값은 앞에서 설명한 키 및 값과 비슷합니다. 유일하게 중요한 차이점은 component 항목에 있는 jobs.<job_name>.component 필드의 값입니다. component 값은 azureml:<component_name>:<component_version> 형식입니다. 예를 들어 정의는 train-job 등록된 구성 요소 my_train 의 최신 버전을 사용해야 한다고 지정합니다.

type: command
component: azureml:my_train@latest
inputs:
  training_data: 
    type: uri_folder 
    path: ./data      
  max_epocs: ${{parent.inputs.pipeline_job_training_max_epocs}}
  learning_rate: ${{parent.inputs.pipeline_job_training_learning_rate}}
  learning_rate_schedule: ${{parent.inputs.pipeline_job_learning_rate_schedule}}
outputs:
  model_output: ${{parent.outputs.pipeline_job_trained_model}}
services:
  my_vscode:

구성 요소 관리

CLI v2를 사용하여 구성 요소 세부 정보를 확인하고 구성 요소를 관리할 수 있습니다. 구성 요소 명령에 대한 자세한 지침을 가져오는 데 사용합니다 az ml component -h . 다음 표에는 사용 가능한 모든 명령이 나열되어 있습니다. Azure CLI 참조에서 더 많은 예제를 확인하세요.

명령어 설명
az ml component create 구성 요소를 만듭니다.
az ml component list 작업 영역의 구성 요소를 나열합니다.
az ml component show 구성 요소의 세부 정보를 표시합니다.
az ml component update 구성 요소 업데이트 일부 필드(설명, display_name)만 업데이트를 지원합니다.
az ml component archive 구성 요소 컨테이너를 보관합니다.
az ml component restore 보관된 구성 요소를 복원합니다.

다음 단계