SDK v1에서 SDK v2로 로깅 마이그레이션

2025-02-05

Azure Machine Learning은 Azure Machine Learning Python SDK, Azure Machine Learning CLI 또는 Azure Machine Learning 스튜디오를 통해 실험을 만들었는지 여부에 관계없이 실험에 대한 메트릭 로깅 및 아티팩트 스토리지에 MLflow 추적을 사용합니다. 실험 추적에 MLflow를 사용하는 것이 좋습니다.

SDK v1에서 SDK v2로 업그레이드하는 경우 이 섹션의 정보를 사용하여 SDK v1 로깅 API에 해당하는 MLflow를 이해합니다.

MLflow를 왜 사용합니까?

매월 1,300만 개 이상의 다운로드가 있는 MLflow는 모든 크기의 팀이 일괄 처리 또는 실시간 유추를 위해 모든 모델을 추적, 공유, 패키지 및 배포할 수 있도록 하는 엔드투엔드 MLOps의 표준 플랫폼이 되었습니다. Azure Machine Learning은 MLflow와 통합되어 학습 코드에 Azure Machine Learning 관련 지침이 포함되어 있지 않으므로 진정한 이식성과 다른 플랫폼과의 원활한 통합을 달성할 수 있습니다.

MLflow로 마이그레이션 준비

MLflow 추적을 사용하려면 Mlflow SDK 패키지 mlflow 및 MLflow azureml-mlflow용 Azure Machine Learning 플러그 인을 설치해야 합니다. 모든 Azure Machine Learning 환경에서는 이러한 패키지를 이미 사용할 수 있지만 사용자 고유의 환경을 만드는 경우 이러한 패키지를 포함해야 합니다.

pip install mlflow azureml-mlflow

작업 영역에 연결

Azure Machine Learning을 사용하면 사용자가 작업 영역에서 실행되거나 원격으로 실행되는 학습 작업(Azure Machine Learning 외부에서 실행되는 실험 추적)에서 추적을 수행할 수 있습니다. 원격 추적을 수행하는 경우 MLflow를 연결하려는 작업 영역을 나타내야 합니다.

Azure Machine Learning 컴퓨팅
원격 컴퓨팅

Azure Machine Learning 컴퓨팅에서 실행할 때 작업 영역에 이미 연결되어 있습니다.

추적 URI 구성

작업 영역의 추적 URI를 가져옵니다.
적용 대상:Azure CLI ml 확장 v2(현재)
1. 로그인하고 작업 영역을 구성합니다.
```
az account set --subscription <subscription-ID>
az configure --defaults workspace=<workspace-name> group=<resource-group-name> ___location=<___location> 
```
2. 다음 명령을 사용하여 추적 URI를 가져옵니다.az ml workspace
```
az ml workspace show --query mlflow_tracking_uri
```
적용 대상: Python SDK azure-ai-ml v2(현재)

Python용 Azure Machine Learning SDK v2를 사용하여 Azure Machine Learning MLflow 추적 URI를 가져올 수 있습니다. 라이브러리가 azure-ai-ml 컴퓨팅 인스턴스에 설치되어 있는지 확인합니다. 그런 다음, 다음 코드를 사용하여 작업 영역과 연결된 고유한 MLFLow 추적 URI를 가져옵니다.
1. 인스턴스 MLClient 를 사용하여 작업 영역에 로그인합니다. 로그인에는 다음 두 가지 옵션이 있습니다.
  - 가장 쉬운 방법은 작업 영역 구성 파일을 사용하는 것입니다.
    
    from azure.ai.ml import MLClient from azure.identity import DefaultAzureCredential ml_client = MLClient.from_config(credential=DefaultAzureCredential())
    
    팁
    
    다음 단계를 수행하여 작업 영역 구성 파일을 다운로드할 수 있습니다.
    
    Azure Machine Learning 스튜디오로 이동합니다.
    
    오른쪽 위 모서리에서 작업 영역의 이름을 선택합니다.
    
    디렉터리 + 구독 + 작업 영역 창에서 구성 파일 다운로드를 선택합니다.
    
    작업 중인 디렉터리에 config.json 파일을 저장합니다.
  - 또는 구독 ID, 리소스 그룹 이름 및 작업 영역 이름을 사용하여 로그인할 수 있습니다.
    
    from azure.ai.ml import MLClient from azure.identity import DefaultAzureCredential # Enter information about your Azure Machine Learning workspace. subscription_id = "<subscription-ID>" resource_group = "<resource-group-name>" workspace_name = "<workspace-name>" ml_client = MLClient(credential=DefaultAzureCredential(), subscription_id=subscription_id, resource_group_name=resource_group, workspace_name=workspace_name)
    
    중요합니다
    
    메서드는 DefaultAzureCredential 사용 가능한 컨텍스트에서 자격 증명을 끌어오려고 시도합니다. 그러나 예를 들어 대화형 방식으로 웹 브라우저를 사용하여 다른 방식으로 자격 증명을 지정할 수 있습니다. 이러한 경우 패키지에서 사용할 수 있는 다른 메서드나 사용할 InteractiveBrowserCredential 수 있습니다 azure.identity .
2. Azure Machine Learning 추적 URI를 가져옵니다.
```
mlflow_tracking_uri = ml_client.workspaces.get(ml_client.workspace_name).mlflow_tracking_uri
```
Azure Machine Learning 스튜디오 사용하여 추적 URI를 가져옵니다.
1. Azure Machine Learning 스튜디오 열고 자격 증명을 사용하여 로그인합니다.
2. 오른쪽 위 모서리에서 작업 영역의 이름을 선택합니다.
3. 디렉터리 + 구독 + 작업 영역 창에서 Azure Portal의 모든 속성 보기를 선택합니다. 작업 영역의 리소스 페이지가 Azure Portal에서 열립니다.
4. Essentials에서 MLflow 추적 URI 값을 복사합니다.
Azure Machine Learning 추적 URI를 수동으로 구성할 수 있습니다. 구독 ID, 작업 영역이 배포된 지역, 리소스 그룹 이름 및 작업 영역 이름이 필요합니다. URI를 얻으려면 다음 코드에 해당 값을 입력합니다.

경고

프라이빗 링크 사용 작업 영역을 사용하는 경우 MLflow 엔드포인트는 프라이빗 링크를 사용하여 Azure Machine Learning과 통신합니다. 따라서 추적 URI는 이 문서의 형식과 다른 형식을 사용합니다. 이 경우 추적 URI를 얻으려면 Python용 Azure Machine Learning SDK 또는 Azure Machine Learning CLI v2를 사용해야 합니다.
```
region = "<region>"
subscription_id = "<subscription-ID>"
resource_group = "<resource-group-name>"
workspace_name = "<workspace-name>"

mlflow_tracking_uri = f"azureml://{region}.api.azureml.ms/mlflow/v1.0/subscriptions/{subscription_id}/resourceGroups/{resource_group}/providers/Microsoft.MachineLearningServices/workspaces/{workspace_name}"
```
추적 URI를 구성합니다.
- MLflow SDK
- 환경 변수
이 메서드를 set_tracking_uri() 사용하여 MLflow 추적 URI를 작업 영역의 추적 URI로 설정합니다.
```
import mlflow

mlflow.set_tracking_uri(mlflow_tracking_uri)
```
컴퓨팅 인스턴스에서 다음 코드를 사용하여 MLflow 환경 변수를 작업 영역의 추적 URI로 설정합니다 MLFLOW_TRACKING_URI . 이 할당을 통해 해당 컴퓨팅 인스턴스의 MLflow와의 모든 상호 작용은 기본적으로 Azure Machine Learning을 가리킵니다. 자세한 내용은 로깅 함수를 참조 하세요.
```
MLFLOW_TRACKING_URI=$(az ml workspace show --query mlflow_tracking_uri | sed 's/"//g') 
```
팁

일부 시나리오에는 Azure Databricks 클러스터 또는 Azure Synapse Analytics 클러스터와 같은 공유 환경에서 작업하는 작업이 포함됩니다. 이러한 경우 각 세션이 아닌 클러스터 수준에서 환경 변수를 설정하는 MLFLOW_TRACKING_URI 것이 유용합니다. 클러스터 수준에서 변수를 설정하면 클러스터의 모든 세션에 대해 Azure Machine Learning을 가리키도록 MLflow 추적 URI가 자동으로 구성됩니다.

인증 구성

추적이 구성되면 연결된 작업 영역에서 인증을 수행하는 방법도 구성해야 합니다. 기본적으로 MLflow용 Azure Machine Learning 플러그 인은 기본 브라우저를 열고 자격 증명을 묻는 메시지를 표시하여 대화형 인증을 수행합니다. Azure Machine Learning용 MLflow 구성: Azure Machine Learning 작업 영역에서 MLflow에 대한 인증을 구성하는 더 많은 방법에 대한 인증 구성을 참조하세요.

세션에 연결된 사용자가 있는 대화형 작업의 경우 대화형 인증을 사용할 수 있습니다. 추가적인 조치가 필요하지 않습니다.

경고

대화형 브라우저 인증은 자격 증명을 묻는 메시지가 표시되면 코드 실행을 차단합니다. 이 방법은 학습 작업과 같은 무인 환경에서 인증에 적합하지 않습니다. 이러한 환경에서 다른 인증 모드를 구성하는 것이 좋습니다.

무인 실행이 필요한 시나리오의 경우 Azure Machine Learning과 통신하도록 서비스 주체를 구성해야 합니다. 서비스 주체를 만드는 방법에 대한 자세한 내용은 서비스 주체 구성을 참조하세요.

다음 코드에서 서비스 주체의 테넌트 ID, 클라이언트 ID 및 클라이언트 암호를 사용합니다.

MLflow SDK
환경 변수

import os

os.environ["AZURE_TENANT_ID"] = "<Azure-tenant-ID>"
os.environ["AZURE_CLIENT_ID"] = "<Azure-client-ID>"
os.environ["AZURE_CLIENT_SECRET"] = "<Azure-client-secret>"

export AZURE_TENANT_ID="<Azure-tenant-ID>"
export AZURE_CLIENT_ID="<Azure-client-ID>"
export AZURE_CLIENT_SECRET="<Azure-client-secret>"

팁

공유 환경에서 작업하는 경우 컴퓨팅 수준에서 이러한 환경 변수를 구성하는 것이 좋습니다. 가능한 경우 Azure Key Vault 인스턴스에서 비밀로 관리하세요.

예를 들어 Azure Databricks 클러스터 구성에서 다음과 같은 방법으로 AZURE_CLIENT_SECRET={{secrets/<scope-name>/<secret-name>}}환경 변수의 비밀을 사용할 수 있습니다. Azure Databricks에서 이 방법을 구현하는 방법에 대한 자세한 내용은 환경 변수에서 비밀 참조를 참조하거나 플랫폼에 대한 설명서를 참조하세요.

실험 및 실행

SDK v1

from azureml.core import Experiment

# create an Azure Machine Learning experiment and start a run
experiment = Experiment(ws, "create-experiment-sdk-v1")
azureml_run = experiment.start_logging()

MLflow가 포함된 SDK v2

# Set the MLflow experiment and start a run
mlflow.set_experiment("logging-with-mlflow")
mlflow_run = mlflow.start_run()

로깅 API 비교

정수 또는 부동 소수점 메트릭 기록

SDK v1

azureml_run.log("sample_int_metric", 1)

MLflow가 포함된 SDK v2

mlflow.log_metric("sample_int_metric", 1)

부울 메트릭 기록

SDK v1

azureml_run.log("sample_boolean_metric", True)

MLflow가 포함된 SDK v2

mlflow.log_metric("sample_boolean_metric", 1)

문자열 메트릭 기록

SDK v1

azureml_run.log("sample_string_metric", "a_metric")

MLflow가 포함된 SDK v2

mlflow.log_text("sample_string_text", "string.txt")

문자열은 메트릭이 아닌 아티팩트로 기록됩니다. Azure Machine Learning 스튜디오에서는 값이 출력 + 로그 탭에 표시됩니다.

PNG 또는 JPEG 파일에 이미지 기록

SDK v1

azureml_run.log_image("sample_image", path="Azure.png")

MLflow가 포함된 SDK v2

mlflow.log_artifact("Azure.png")

이미지가 아티팩트로 기록되고 Azure Machine Learning 스튜디오 이미지 탭에 표시됩니다.

matplotlib.pyplot 기록

SDK v1

import matplotlib.pyplot as plt

plt.plot([1, 2, 3])
azureml_run.log_image("sample_pyplot", plot=plt)

MLflow가 포함된 SDK v2

import matplotlib.pyplot as plt

plt.plot([1, 2, 3])
fig, ax = plt.subplots()
ax.plot([0, 1], [2, 3])
mlflow.log_figure(fig, "sample_pyplot.png")

이미지가 아티팩트로 기록되고 Azure Machine Learning 스튜디오 이미지 탭에 표시됩니다.

메트릭 목록 기록

SDK v1

list_to_log = [1, 2, 3, 2, 1, 2, 3, 2, 1]
azureml_run.log_list('sample_list', list_to_log)

MLflow가 포함된 SDK v2

list_to_log = [1, 2, 3, 2, 1, 2, 3, 2, 1]
from mlflow.entities import Metric
from mlflow.tracking import MlflowClient
import time

metrics = [Metric(key="sample_list", value=val, timestamp=int(time.time() * 1000), step=0) for val in list_to_log]
MlflowClient().log_batch(mlflow_run.info.run_id, metrics=metrics)

메트릭은 Azure Machine Learning 스튜디오의 메트릭 탭에 표시됩니다.
텍스트 값은 지원되지 않습니다.

메트릭 행 기록

SDK v1

azureml_run.log_row("sample_table", col1=5, col2=10)

MLflow가 포함된 SDK v2

metrics = {"sample_table.col1": 5, "sample_table.col2": 10}
mlflow.log_metrics(metrics)

메트릭은 Azure Machine Learning 스튜디오에서 테이블로 렌더링되지 않습니다.
텍스트 값은 지원되지 않습니다.
메트릭이 아닌 아티팩트로 기록됩니다.

테이블 기록

SDK v1

table = {
"col1" : [1, 2, 3],
"col2" : [4, 5, 6]
}
azureml_run.log_table("table", table)

MLflow가 포함된 SDK v2

# Add a metric for each column prefixed by metric name. Similar to log_row
row1 = {"table.col1": 5, "table.col2": 10}
# To be done for each row in the table
mlflow.log_metrics(row1)

# Using mlflow.log_artifact
import json

with open("table.json", 'w') as f:
json.dump(table, f)
mlflow.log_artifact("table.json")

각 열에 대한 메트릭을 기록합니다.
메트릭은 Azure Machine Learning 스튜디오에서 테이블로 렌더링되지 않습니다.
텍스트 값은 지원되지 않습니다.
메트릭이 아닌 아티팩트로 기록됩니다.

정확도 테이블 기록

SDK v1

ACCURACY_TABLE = '{"schema_type": "accuracy_table", "schema_version": "v1", "data": {"probability_tables": ' +\
        '[[[114311, 385689, 0, 0], [0, 0, 385689, 114311]], [[67998, 432002, 0, 0], [0, 0, ' + \
        '432002, 67998]]], "percentile_tables": [[[114311, 385689, 0, 0], [1, 0, 385689, ' + \
        '114310]], [[67998, 432002, 0, 0], [1, 0, 432002, 67997]]], "class_labels": ["0", "1"], ' + \
        '"probability_thresholds": [0.52], "percentile_thresholds": [0.09]}}'

azureml_run.log_accuracy_table('v1_accuracy_table', ACCURACY_TABLE)

MLflow가 포함된 SDK v2

ACCURACY_TABLE = '{"schema_type": "accuracy_table", "schema_version": "v1", "data": {"probability_tables": ' +\
        '[[[114311, 385689, 0, 0], [0, 0, 385689, 114311]], [[67998, 432002, 0, 0], [0, 0, ' + \
        '432002, 67998]]], "percentile_tables": [[[114311, 385689, 0, 0], [1, 0, 385689, ' + \
        '114310]], [[67998, 432002, 0, 0], [1, 0, 432002, 67997]]], "class_labels": ["0", "1"], ' + \
        '"probability_thresholds": [0.52], "percentile_thresholds": [0.09]}}'

mlflow.log_dict(ACCURACY_TABLE, 'mlflow_accuracy_table.json')

메트릭은 Azure Machine Learning 스튜디오에서 정확도 테이블로 렌더링되지 않습니다.
메트릭이 아닌 아티팩트로 기록됩니다.
mlflow.log_dict 메서드는 실험적입니다.

혼동 행렬 기록

SDK v1

CONF_MATRIX = '{"schema_type": "confusion_matrix", "schema_version": "v1", "data": {"class_labels": ' + \
    '["0", "1", "2", "3"], "matrix": [[3, 0, 1, 0], [0, 1, 0, 1], [0, 0, 1, 0], [0, 0, 0, 1]]}}'

azureml_run.log_confusion_matrix('v1_confusion_matrix', json.loads(CONF_MATRIX))

MLflow가 포함된 SDK v2

CONF_MATRIX = '{"schema_type": "confusion_matrix", "schema_version": "v1", "data": {"class_labels": ' + \
    '["0", "1", "2", "3"], "matrix": [[3, 0, 1, 0], [0, 1, 0, 1], [0, 0, 1, 0], [0, 0, 0, 1]]}}'

mlflow.log_dict(CONF_MATRIX, 'mlflow_confusion_matrix.json')

메트릭은 Azure Machine Learning 스튜디오에서 혼동 행렬로 렌더링되지 않습니다.
메트릭이 아닌 아티팩트로 기록됩니다.
mlflow.log_dict 메서드는 실험적입니다.

로그 예측

SDK v1

PREDICTIONS = '{"schema_type": "predictions", "schema_version": "v1", "data": {"bin_averages": [0.25,' + \
    ' 0.75], "bin_errors": [0.013, 0.042], "bin_counts": [56, 34], "bin_edges": [0.0, 0.5, 1.0]}}'

azureml_run.log_predictions('test_predictions', json.loads(PREDICTIONS))

MLflow가 포함된 SDK v2

PREDICTIONS = '{"schema_type": "predictions", "schema_version": "v1", "data": {"bin_averages": [0.25,' + \
    ' 0.75], "bin_errors": [0.013, 0.042], "bin_counts": [56, 34], "bin_edges": [0.0, 0.5, 1.0]}}'

mlflow.log_dict(PREDICTIONS, 'mlflow_predictions.json')

메트릭은 Azure Machine Learning 스튜디오에서 혼동 행렬로 렌더링되지 않습니다.
메트릭이 아닌 아티팩트로 기록됩니다.
mlflow.log_dict 메서드는 실험적입니다.

로그 잔류

SDK v1

RESIDUALS = '{"schema_type": "residuals", "schema_version": "v1", "data": {"bin_edges": [100, 200, 300], ' + \
'"bin_counts": [0.88, 20, 30, 50.99]}}'

azureml_run.log_residuals('test_residuals', json.loads(RESIDUALS))

MLflow가 포함된 SDK v2

RESIDUALS = '{"schema_type": "residuals", "schema_version": "v1", "data": {"bin_edges": [100, 200, 300], ' + \
'"bin_counts": [0.88, 20, 30, 50.99]}}'

mlflow.log_dict(RESIDUALS, 'mlflow_residuals.json')

메트릭은 Azure Machine Learning 스튜디오에서 혼동 행렬로 렌더링되지 않습니다.
메트릭이 아닌 아티팩트로 기록됩니다.
mlflow.log_dict 메서드는 실험적입니다.

실행 정보 및 데이터 보기

MLflow data 개체의 info 및 속성을 사용하여 실행 정보에 액세스할 수 있습니다.

팁

Azure Machine Learning의 실험 및 실행 추적 정보는 실험 및 실행을 쉽게 쿼리 및 검색하고 결과를 빠르게 비교할 수 있는 포괄적인 검색 API를 제공하는 MLflow를 사용하여 쿼리할 수 있습니다. 이 차원의 MLflow의 모든 기능에 대한 자세한 내용은 MLflow를 사용하여 실험 및 실행 비교 쿼리를 참조 하세요.

다음 예제에서는 완료된 실행을 검색하는 방법을 보여줍니다.

from mlflow.tracking import MlflowClient

# Use MlFlow to retrieve the run that was just completed
client = MlflowClient()
finished_mlflow_run = MlflowClient().get_run("<RUN_ID>")

다음 예제에서는 metrics, tags 및 params를 보는 방법을 보여 줍니다.

metrics = finished_mlflow_run.data.metrics
tags = finished_mlflow_run.data.tags
params = finished_mlflow_run.data.params

참고 항목

metrics에는 지정된 메트릭에 대해 가장 최근에 로그된 값만 있습니다. 예를 들어 1 값을 순서대로 로깅한 다음, 23, 마지막으로 4를 sample_metric이라는 메트릭에 로그인하는 경우 4 사전에는 metrics만 표시됩니다. 명명된 특정 메트릭에 대해 기록된 모든 메트릭을 가져오려면 MlFlowClient.get_metric_history를 사용합니다.

with mlflow.start_run() as multiple_metrics_run:
    mlflow.log_metric("sample_metric", 1)
    mlflow.log_metric("sample_metric", 2)
    mlflow.log_metric("sample_metric", 3)
    mlflow.log_metric("sample_metric", 4)

print(client.get_run(multiple_metrics_run.info.run_id).data.metrics)
print(client.get_metric_history(multiple_metrics_run.info.run_id, "sample_metric"))

자세한 내용은 MlFlowClient 참조를 참조하세요.

info 필드는 시작 시간, 실행 ID, 실험 ID 등과 같은 실행에 대한 일반 정보를 제공합니다.

run_start_time = finished_mlflow_run.info.start_time
run_experiment_id = finished_mlflow_run.info.experiment_id
run_id = finished_mlflow_run.info.run_id

실행 아티팩트 보기

실행의 아티팩트를 보려면 MlFlowClient.list_artifacts를 사용합니다.

client.list_artifacts(finished_mlflow_run.info.run_id)

아티팩트를 다운로드하려면 mlflow.artifacts.download_artifacts를 사용합니다.

mlflow.artifacts.download_artifacts(run_id=finished_mlflow_run.info.run_id, artifact_path="Azure.png")

다음을 통해 공유

SDK v1에서 SDK v2로 로깅 마이그레이션

MLflow를 왜 사용합니까?

MLflow로 마이그레이션 준비

작업 영역에 연결

실험 및 실행

로깅 API 비교

정수 또는 부동 소수점 메트릭 기록

부울 메트릭 기록

문자열 메트릭 기록

PNG 또는 JPEG 파일에 이미지 기록

matplotlib.pyplot 기록

메트릭 목록 기록

메트릭 행 기록

테이블 기록

정확도 테이블 기록

혼동 행렬 기록

로그 예측

로그 잔류

실행 정보 및 데이터 보기

실행 아티팩트 보기

다음 단계

피드백

추가 리소스