중요합니다
이 문서에서는 Azure Machine Learning SDK v1 사용에 대한 정보를 제공합니다. SDK v1은 2025년 3월 31일부터 더 이상 사용되지 않으며 지원은 2026년 6월 30일에 종료됩니다. 해당 날짜까지 SDK v1을 설치하고 사용할 수 있습니다.
2026년 6월 30일 이전에 SDK v2로 전환하는 것이 좋습니다. SDK v2에 대한 자세한 내용은 Azure Machine Learning Python SDK v2 및 SDKv2 참조란?을 참조하세요.
이 문서에서는 Azure Machine Learning 스튜디오를 사용하여 데이터에 액세스하는 방법을 보여줍니다. Azure Machine Learning 데이터 저장소를 사용하여 Azure 스토리지 서비스의 데이터에 연결합니다. 그런 다음 Azure Machine Learning 데이터 세트를 사용하여 ML 워크플로 작업에 대한 데이터를 패키지합니다.
이 표에서는 데이터 저장소 및 데이터 세트의 이점을 정의하고 요약합니다.
객체 | 설명 | 이점 |
---|---|---|
데이터 저장소 | Azure의 스토리지 서비스에 안전하게 연결하려면 연결 정보(구독 ID, 토큰 승인 등)를 작업 영역과 연결된 Key Vault에 저장 | 정보가 안전하게 저장되므로 인증 자격 증명 또는 원본 데이터 원본을 위험에 빠뜨리지 않으며 더 이상 스크립트에서 이러한 값을 하드 코딩할 필요가 없음 |
데이터 집합 | 데이터 세트를 만들면 해당 메타데이터 복사본과 함께 데이터 원본 위치에 대한 참조도 만들어집니다. 데이터 세트를 사용하면 모델 학습 중에 데이터에 액세스하고, 데이터를 공유하고, 다른 사용자와 공동 작업하고, 데이터 탐색을 위해 pandas와 같은 오픈 소스 라이브러리를 사용할 수 있습니다. | 데이터 세트는 지연 평가되고 데이터는 기존 위치에 유지되므로 스토리지에 단일 데이터 복사본을 유지합니다. 또한 추가 스토리지 비용이 발생하지 않고 원래 데이터 원본의 의도하지 않은 변경을 방지하며 ML 워크플로 성능 속도가 향상됩니다. |
데이터 저장소 및 데이터 세트가 전체 Azure Machine Learning 데이터 액세스 워크플로에 적합한 위치에 대한 자세한 내용은 안전하게 데이터에 액세스하세요.
Azure Machine Learning Python SDK 및 코드 우선 환경에 대한 자세한 내용은 다음을 참조하세요.
필수 구성 요소
Azure 구독 Azure 구독이 아직 없는 경우 시작하기 전에 체험 계정을 만듭니다. Azure Machine Learning 평가판 또는 유료 버전 사용해 보기
Azure Machine Learning 작업 영역 작업 영역 리소스 만들기
- 작업 영역을 만들면 Azure Blob 컨테이너와 Azure 파일 공유가 자동으로 작업 영역에 데이터 저장소로 등록됩니다. 각각 이름이
workspaceblobstore
및workspacefilestore
로 지정됩니다. 충분한 Blob Storage 리소스의 경우workspaceblobstore
이(가) 이미 사용하도록 구성된 기본 데이터 저장소로 설정됩니다. 더 많은 Blob Storage 리소스의 경우 지원되는 스토리지 유형을 사용하는 Azure Storage 계정이 필요합니다.
- 작업 영역을 만들면 Azure Blob 컨테이너와 Azure 파일 공유가 자동으로 작업 영역에 데이터 저장소로 등록됩니다. 각각 이름이
데이터 저장소 만들기
이 Azure 스토리지 솔루션에서 데이터 저장소를 만들 수 있습니다. 지원되지 않는 스토리지 솔루션의 경우 ML 실험 중에 데이터 송신 비용을 절약하려면 지원되는 Azure Storage 솔루션으로 데이터를 이동해야 합니다. 데이터 저장소에 대한 자세한 내용은 이 리소스를 방문하세요.
자격 증명 기반 액세스 또는 ID 기반 액세스를 사용하여 데이터 저장소를 만들 수 있습니다.
Azure Machine Learning 스튜디오를 사용하여 새 데이터 저장소를 만듭니다.
중요합니다
데이터 스토리지 계정이 가상 네트워크에 있는 경우 스튜디오가 데이터에 액세스할 수 있도록 추가 구성 단계가 필요합니다. 적절한 구성 단계에 대한 자세한 내용은 네트워크 격리 및 개인 정보를 방문하세요.
- Azure Machine Learning Studio에 로그인합니다.
- 자산 아래의 왼쪽 창에서 데이터를 선택합니다.
- 맨 위에서 데이터 저장소를 선택합니다.
- +만들기를 선택합니다.
- 양식을 완료하여 새 데이터 저장소를 만들고 등록합니다. 이 양식은 사용자가 선택하는 Azure 스토리지 유형 및 인증 형식에 따라 지능적으로 업데이트됩니다. 이 양식을 채우는 데 필요한 인증 자격 증명을 찾을 수 있는 위치에 대한 자세한 내용은 이 문서의 스토리지 액세스 및 사용 권한 섹션을 참조하세요.
다음 스크린샷은 Azure Blob 데이터 저장소 만들기 패널을 보여줍니다.
데이터 자산 만들기
데이터 저장소를 만든 후 데이터 세트를 만들어 데이터와 상호 작용합니다. 데이터 세트는 학습과 같은 기계 학습 작업을 위해 천천히 평가되는 사용 가능한 개체로 데이터를 패키징합니다. 데이터 세트에 관한 자세한 내용은 Azure Machine Learning 데이터 세트 만들기에 방문하세요.
두 가지 형식의 데이터 세트인 FileDataset 및 TabularDataset가 있습니다. FileDataset는 단일 또는 여러 파일이나 퍼블릭 URL에 대한 참조를 만듭니다. TabularDataset는 데이터를 테이블 형식으로 표시합니다. 다음에서 TabularDatasets를 만들 수 없습니다.
- .csv
- .tsv
- .parquet
- .json 파일 및 SQL 쿼리 결과.
다음 단계는 Azure Machine Learning 스튜디오에서 데이터 세트를 만드는 방법을 설명합니다.
참고 항목
Azure Machine Learning 스튜디오를 통해 만든 데이터 세트는 작업 영역에 자동으로 등록됩니다.
Azure Machine Learning 스튜디오로 이동합니다.
왼쪽 탐색의 자산 아래에서 데이터를 선택합니다. 다음 스크린샷과 같이 데이터 자산 탭에서 만들기를 선택합니다.
- 데이터 자산에 이름과 설명(선택 사항)을 지정합니다. 그런 다음 다음 스크린샷과 같이 형식 아래에서 파일 또는 테이블 형식의 데이터 세트 형식을 선택합니다.
- 다음 스크린샷과 같이 데이터 원본 창이 다음에 열립니다.
데이터 원본에 대한 다양한 옵션이 있습니다. Azure에 이미 저장된 데이터의 경우 “Azure Storage에서”를 선택합니다. 로컬 드라이브에서 데이터를 업로드하려면 “로컬 파일에서”를 선택합니다. 데이터가 공용 웹 위치에 저장된 경우 "웹 파일에서"를 선택합니다. SQL 데이터베이스 또는 Azure Open Datasets에서 데이터 자산을 만들 수도 있습니다.
파일 선택 단계에서 Azure가 데이터를 저장할 위치와 사용하려는 데이터 파일을 선택합니다.
- 데이터가 가상 네트워크에 있는 경우 유효성 검사 건너뛰기를 사용합니다. 가상 네트워크 격리 및 개인 정보에 대한 자세한 내용은 이 리소스를 참조하세요.
단계에 따라 데이터 자산에 대한 데이터 구문 분석 설정 및 스키마를 설정합니다. 설정은 파일 형식에 따라 미리 채워지고 데이터 자산을 만들기 전에 설정을 추가로 구성할 수 있습니다.
검토 단계에 도달하면 마지막 페이지에서 만들기 선택
데이터 미리 보기 및 프로필
데이터 세트를 만든 후 스튜디오에서 미리 보기 및 프로필을 볼 수 있는지 확인합니다.
- Azure Machine Learning 스튜디오에 로그인합니다.
- 왼쪽 탐색의 자산 아래에서 다음 스크린샷과 같이 데이터를 선택합니다.
- 보려는 데이터 세트 이름을 선택합니다.
- 탐색 탭을 선택합니다.
- 다음 스크린샷과 같이 미리 보기 탭을 선택합니다.
- 다음 스크린샷과 같이 프로필 탭을 선택합니다.
데이터 집합이 ML 준비되었는지 확인하려면 데이터 집합 전체에서 요약 통계를 사용할 수 있습니다. 숫자가 아닌 열의 경우 이러한 통계에는 기본 통계 측정값(예: min, max 및 error count)만 포함됩니다. 숫자 열은 통계적 모멘트와 예상 분위수를 제공합니다.
Azure Machine Learning 데이터 세트 데이터 프로필에는 다음이 포함됩니다.
참고 항목
관련이 없는 형식의 기능은 빈 항목으로 표시되어 있습니다.
통계 | 설명 |
---|---|
기능 | 요약된 열 이름 |
프로필 | 유추된 형식을 기반으로 하는 인라인 시각화입니다. 문자열, 부울 및 날짜에는 값 개수가 있습니다. 소수점(숫자)에는 근사 히스토그램이 있습니다. 이러한 시각화를 통해 데이터 분포를 빠르게 파악할 수 있음 |
형식 분포 | 열 내 유형의 인라인 값 개수입니다. Null은 고유한 유형이므로 이 시각화는 홀수 또는 누락된 값을 감지할 수 있음 |
유형 | 유추 열 형식입니다. 가능한 값은 문자열, 부울, 날짜 및 소수점임 |
민 | 열의 최솟값입니다. 형식(예: 부울)에 고유한 순서가 없는 기능은 빈 항목으로 표시됨 |
최대 | 열의 최댓값입니다. |
수량 | 열에서 누락되거나 누락되지 않은 항목의 총 수 |
누락되지 않은 수 | 열에서 누락되지 않은 항목의 수입니다. 빈 문자열과 오류는 값으로 처리되므로 "누락되지 않은 수"에 영향을 주지 않습니다. |
분위수 | 데이터 분포를 파악하기 위한 각 분위수의 근사값 |
평균 | 열의 산술 평균 또는 평균 |
표준 편차 | 이 열의 데이터에 대한 분산 또는 편차를 측정한 값 |
분산 | 이 열의 데이터가 평균 값에서 얼마나 분산되는지 측정 |
왜곡도 | 일반 분포에서 이 열 데이터의 차이를 측정 |
첨도 | 일반 분포와 비교하여 이 열 데이터의 "꼬리"의 정도를 측정 |
스토리지 액세스 및 권한
Azure Storage 서비스에 안전하게 연결하려면 Azure Machine Learning에서 해당하는 데이터 스토리지에 액세스할 권한이 있어야 합니다. 이 액세스 권한은 데이터 저장소를 등록하는 데 사용되는 인증 자격 증명에 따라 다릅니다.
가상 네트워크
데이터 스토리지 계정이 가상 네트워크에 있는 경우 Azure Machine Learning이 데이터에 액세스할 수 있도록 하려면 추가 구성 단계가 필요합니다. 가상 네트워크에서 Azure Machine Learning Studio를 사용하여 데이터 저장소를 만들고 등록할 때 적절한 구성 단계가 적용되는지 확인합니다.
액세스 유효성 검사
경고
스토리지 계정에 대한 테넌트 간 액세스는 지원되지 않습니다. 시나리오에 테넌트 간 액세스가 필요한 경우 사용자 지정 코드 솔루션에 대한 지원을 받으려면 (Azure Machine Learning 데이터 지원 팀)에 문의하세요.
초기 데이터 저장소 생성 및 등록 프로세스에서 Azure Machine Learning은 기본 스토리지 서비스가 있고 사용자가 제공한 보안 주체(사용자 이름, 서비스 주체 또는 SAS 토큰)가 지정된 스토리지에 대한 액세스 권한이 있는지 자동으로 유효성을 검사합니다.
데이터 저장소가 생성된 후 이 유효성 검사는 기본 스토리지 컨테이너에 액세스해야 하는 메서드에 대해서만 수행됩니다. 데이터 저장소 개체를 검색할 때마다 유효성 검사가 수행되지 않습니다. 예를 들어 데이터 저장소에서 파일을 다운로드할 때 유효성 검사가 수행됩니다. 그러나 기본 데이터 저장소를 변경하려는 경우에는 유효성 검사가 수행되지 않습니다.
기본 스토리지 서비스에 대한 액세스를 인증하려면 만들려는 데이터 저장소 유형에 따라 계정 키, SAS(공유 액세스 서명) 토큰 또는 서비스 주체를 제공하면 됩니다. 스토리지 유형 행렬에는 각 데이터 저장소 유형에 해당하는 지원되는 인증 유형이 나열됩니다.
Azure Portal에서 계정 키, SAS 토큰 및 서비스 주체 정보를 찾을 수 있습니다.
인증을 위한 계정 키를 가져오려면 왼쪽 창에서 스토리지 계정을 선택하고 등록할 스토리지 계정 선택
- 개요 페이지에서는 계정 이름, 컨테이너 및 파일 공유 이름과 같은 정보를 제공합니다.
- 왼쪽 탐색에서 보안 + 네트워킹 노드 확장
- 액세스 키를 선택합니다.
- 사용 가능한 키 값은 계정 키 값으로 사용됨
인증을 위해 SAS 토큰을 가져오려면 왼쪽 창에서 스토리지 계정을 선택하고 원하는 스토리지 계정 선택
- Access 키 값을 가져오려면 왼쪽 탐색에서 보안 + 네트워킹 노드 확장
- 공유 액세스 서명 선택
- SAS 값을 생성하는 프로세스 완료
인증에 서비스 주체 를 사용하려면 앱 등록 으로 이동하여 사용하려는 앱을 선택합니다.
- 해당 개요 페이지에는 테넌트 ID 및 클라이언트 ID와 같은 필수 정보가 포함되어 있습니다.
중요합니다
- Azure Storage 계정(계정 키 또는 SAS 토큰)의 액세스 키를 변경해야 하는 경우 새 자격 증명을 작업 영역 및 이 작업 영역에 연결된 데이터 저장소와 동기화해야 합니다. 자세한 내용은 업데이트된 자격 증명 동기화하기에 방문하세요.
- 등록을 취소한 다음 동일한 이름으로 데이터 저장소를 다시 등록하고 다시 등록에 실패하는 경우 작업 영역의 Azure Key Vault에서 일시 삭제를 사용하도록 설정하지 않았을 수 있습니다. 기본적으로 작업 영역에서 만든 키 보관소 인스턴스에 대해 소프트 삭제가 활성화됩니다. 그러나 기존 키 자격 증명 모음을 사용하거나 2020년 10월 이전에 작업 영역을 만든 경우에는 사용하도록 설정되지 않을 수 있습니다. 일시 삭제를 사용하도록 설정하는 방법에 대한 자세한 내용은 기존 키 자격 증명 모음에 대해 일시 삭제 설정을 참조하세요.
사용 권한
Azure Blob 컨테이너 및 Azure Data Lake Gen 2 스토리지의 경우, 인증 자격 증명에 Storage Blob 데이터 읽기 권한자 액세스 권한이 있는지 확인합니다. 스토리지 Blob 데이터 읽기 권한자에 대해 자세히 알아보세요. 기본적으로 계정 SAS 토큰에는 권한이 없습니다.
데이터 읽기 액세스의 경우 인증 자격 증명에는 컨테이너 및 개체에 대한 최소한의 나열 및 읽기 권한이 있어야 합니다.
데이터 쓰기 액세스의 경우 쓰기 및 추가 권한도 필요합니다.
데이터 세트로 학습
ML 모델 학습을 위한 기계 학습 실험에서 데이터 세트를 사용합니다. 데이터 세트를 사용하여 학습시키는 방법을 알아보세요.
다음 단계
- TabularDataset 및 자동화된 기계 학습을 사용한 학습의 단계별 예제
- 모델 학습
- 추가 데이터 세트 학습 예제는 샘플 Notebook 참조