data 패키지
Azure Machine Learning에서 데이터 저장소 및 데이터 세트에 대한 데이터 표현을 지원하는 모듈을 포함합니다.
이 패키지에는 패키지의 핵심 기능 지원 Datastore 및 Dataset 클래스가 core 포함되어 있습니다. 데이터 저장소 개체에는 스크립트에서 직접 작업하거나 하드 코드 연결 정보 없이 이름으로 쉽게 참조할 수 있는 Azure Storage 서비스에 대한 연결 정보가 포함되어 있습니다. Datastore는 이 패키지의 클래스로 표현되는 다양한 서비스(예AzureBlobDatastore: 및 AzureFileDatastoreAzureDataLakeDatastore)를 지원합니다. 지원되는 스토리지 서비스의 전체 목록은 클래스를 Datastore 참조하세요.
데이터 저장소는 데이터 파일의 컨테이너 역할을 하지만 데이터 세트는 데이터 저장소에 있는 특정 데이터에 대한 참조 또는 포인터로 간주할 수 있습니다. 지원되는 데이터 세트 형식은 다음과 같습니다.
TabularDataset 는 제공된 파일 또는 파일 목록을 구문 분석하여 만든 테이블 형식의 데이터를 나타냅니다.
FileDataset 는 데이터 저장소 또는 공용 URL의 단일 또는 여러 파일을 참조합니다.
자세한 내용은 데이터 세트 추가 및 등록 문서를 참조하세요. 데이터 세트 작업을 시작하려면 다음을 참조 https://aka.ms/tabulardataset-samplenotebook 하세요 https://aka.ms/filedataset-samplenotebook.
모듈
abstract_dataset |
Azure Machine Learning의 데이터 세트에 대한 추상 기본 클래스를 포함합니다. |
abstract_datastore |
Azure Storage 서비스에 연결 정보를 저장하는 데이터 저장소의 기본 기능을 포함합니다. |
azure_data_lake_datastore |
Azure Data Lake Storage에 연결 정보를 저장하는 데이터 저장소의 기본 기능을 포함합니다. |
azure_my_sql_datastore |
Azure Database for MySQL에 연결 정보를 저장하는 데이터 저장소의 기본 기능을 포함합니다. |
azure_postgre_sql_datastore |
Azure Database for PostgreSQL에 대한 연결 정보를 저장하는 데이터 저장소의 기본 기능을 포함합니다. |
azure_sql_database_datastore |
Azure SQL 데이터베이스에 연결 정보를 저장하는 데이터 저장소의 기본 기능을 포함합니다. |
azure_storage_datastore |
Azure Blob 및 Azure File Storage에 연결 정보를 저장하는 데이터 저장소에 대한 기능을 포함합니다. |
constants |
azureml.data 패키지에 사용되는 상수입니다. 내부용으로만 사용됩니다. |
context_managers |
데이터 저장소 및 데이터 세트의 데이터 컨텍스트를 관리하는 기능을 포함합니다. 내부용으로만 사용됩니다. |
data_reference |
데이터 저장소에서 데이터에 대한 참조를 만드는 방법을 정의하는 기능을 포함합니다. |
datacache |
Azure Machine Learning에서 DatacacheStore 및 Datacache를 관리하기 위한 기능이 포함되어 있습니다. |
datacache_client |
내부용으로만 사용됩니다. |
datacache_consumption_config |
DataCache 사용 구성에 대한 기능을 포함합니다. |
datacache_singularity_settings |
Datacache 특이점 설정 표현에 필요한 개체를 포함합니다. |
datapath |
데이터 저장소의 데이터에 대한 참조를 만드는 기능을 포함합니다. 이 모듈에는 데이터의 위치를 나타내는 클래스와 DataPath 컴퓨팅 대상에서 데이터를 사용할 수 있는 방법을 나타내는 클래스가 포함되어 DataPathComputeBinding 있습니다. |
dataset_action_run |
데이터 세트 작업의 실행을 관리하는 기능을 포함합니다. 이 모듈에서는 데이터 세트 작업을 만들고 완료 후 결과를 가져오기 위한 편리한 방법을 제공합니다. |
dataset_consumption_config |
데이터 세트 사용 구성에 대한 기능을 포함합니다. |
dataset_definition |
데이터 세트 정의 및 해당 작업을 관리하는 기능이 포함되어 있습니다. 비고 이 모듈은 더 이상 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요. |
dataset_error_handling |
Azure Machine Learning에서 데이터 세트 오류 처리에 대한 예외를 포함합니다. |
dataset_factory |
Azure Machine Learning용 데이터 세트를 만드는 기능이 포함되어 있습니다. |
dataset_profile |
데이터 흐름에서 생성된 데이터에 대한 요약 통계를 수집하기 위한 클래스입니다. 이 모듈의 기능에는 프로필이 부실한지 여부에 관계없이 프로필을 생성한 실행에 대한 정보 수집이 포함됩니다. |
dataset_profile_run |
Azure Machine Learning에서 실행되는 데이터 세트 프로필을 모니터링하기 위한 구성을 포함합니다. 이 모듈의 기능에는 실험 개체 및 개별 실행 ID와 연결된 데이터 세트 프로필 실행 처리 및 모니터링이 포함됩니다. |
dataset_profile_run_config |
Azure Machine Learning에서 데이터 세트의 통계 요약을 생성하는 구성을 포함합니다. 이 모듈의 기능에는 로컬 또는 원격 프로필 실행을 제출하고 제출된 프로필 실행의 결과를 시각화하는 메서드가 포함됩니다. |
dataset_snapshot |
데이터 세트 스냅샷 작업을 관리하는 기능이 포함되어 있습니다. 비고 이 모듈은 더 이상 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요. |
dataset_type_definitions |
와 함께 Dataset사용되는 열거형 값을 포함합니다. |
datastore_client |
내부용으로만 사용됩니다. |
dbfs_datastore |
DBFS(Databricks File Sytem)에 연결 정보를 저장하는 데이터 저장소에 대한 기능을 포함합니다. |
file_dataset |
데이터 저장소 또는 공용 URL에서 단일 또는 여러 파일을 참조하는 기능을 포함합니다. 자세한 내용은 데이터 세트 추가 및 등록 문서를 참조하세요. 파일 데이터 세트 작업을 시작하려면 다음을 참조하세요 https://aka.ms/filedataset-samplenotebook. |
hdfs_datastore |
HDFS 클러스터에 연결 정보를 저장하는 데이터 저장소의 기본 기능을 포함합니다. |
output_dataset_config |
작업에 대한 출력을 업로드하고 데이터 세트로 승격하는 방법을 지정하는 구성을 포함합니다. 자세한 내용은 출력을 지정하는 방법을 참조하세요. |
sql_data_reference |
SQL 데이터베이스에 연결 정보를 저장하는 데이터 저장소의 데이터에 대한 참조를 만드는 기능을 포함합니다. |
stored_procedure_parameter |
SQL 저장 프로시저에 전달할 매개 변수를 만드는 기능을 포함합니다. |
tabular_dataset |
제공된 파일 또는 파일 목록을 구문 분석하여 테이블 형식으로 데이터를 나타내는 기능을 포함합니다. 자세한 내용은 데이터 세트 추가 및 등록 문서를 참조하세요. 테이블 형식 데이터 세트 작업을 시작하려면 다음을 참조하세요 https://aka.ms/tabulardataset-samplenotebook. |
클래스
DataType |
Azure Machine Learning에서 만든 데이터 세트에 대한 열 데이터 형식을 구성합니다. DataType 메서드는 새 TabularDataset 개체를 만드는 데 사용되는 클래스 TabularDatasetFactory 메서드에 사용됩니다 |
DatacacheStore |
비고 이는 실험적 클래스이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요. Azure Machine Learning 스토리지 계정에 대한 스토리지 추상화입니다. DatacacheStores는 작업 영역에 연결되며 기본 데이터 캐시 솔루션과 관련된 정보를 저장하는 데 사용됩니다. 현재 분할된 Blob 솔루션만 지원됩니다. Datacachestores는 캐싱에 사용할 수 있는 다양한 Blob 데이터 저장소를 정의합니다. 이 클래스를 사용하여 데이터 서버 등록, 나열, 가져오기 및 업데이트 등의 관리 작업을 수행할 수 있습니다.
각 서비스에 대한 DatacacheStores는 이 클래스의 메서드를 사용하여 이름으로 datacachestore를 가져옵니다. 이 호출은 데이터 캐시 서비스에 대한 요청을 수행합니다. |
FileDataset |
Azure Machine Learning에서 사용할 데이터 저장소 또는 공용 URL의 파일 참조 컬렉션을 나타냅니다. FileDataset은 데이터 원본에서 파일 스트림으로 데이터를 로드하는 일련의 지연 평가, 변경할 수 없는 작업을 정의합니다. FileDataset에서 데이터를 배달하라는 메시지가 표시될 때까지 데이터는 원본에서 로드되지 않습니다. FileDatasetFactory 클래스의 메서드를 from_files 사용하여 FileDataset을 만듭니다. 자세한 내용은 데이터 세트 추가 및 등록 문서를 참조하세요. 파일 데이터 세트 작업을 시작하려면 다음을 참조하세요 https://aka.ms/filedataset-samplenotebook. FileDataset 개체를 초기화합니다. 이 생성자는 직접 호출할 수 없습니다. 데이터 세트는 클래스를 사용하여 FileDatasetFactory 만들기 위한 것입니다. |
HDFSOutputDatasetConfig |
HDFS 경로로 출력하고 FileDataset로 승격되는 방법을 나타냅니다. HDFSOutputDatasetConfig를 초기화합니다. |
LinkFileOutputDatasetConfig |
비고 이는 실험적 클래스이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요. 실행의 출력을 연결하고 FileDataset으로 승격하는 방법을 나타냅니다. LinkFileOutputDatasetConfig를 사용하면 파일 데이터 세트를 출력 데이터 세트로 연결할 수 있습니다.
LinkFileOutputDatasetConfig를 초기화합니다. |
LinkTabularOutputDatasetConfig |
비고 이는 실험적 클래스이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요. 실행의 출력을 연결하고 TabularDataset로 승격하는 방법을 나타냅니다. LinkTabularOutputDatasetConfig를 사용하면 파일 테이블 형식을 출력 데이터 세트로 연결할 수 있습니다.
LinkTabularOutputDatasetConfig를 초기화합니다. |
OutputFileDatasetConfig |
실행의 출력을 복사하고 FileDataset으로 승격하는 방법을 나타냅니다. OutputFileDatasetConfig를 사용하면 컴퓨팅 대상의 특정 로컬 경로를 지정된 대상에 업로드할 방법을 지정할 수 있습니다. 생성자에 인수가 전달되지 않으면 이름, 대상 및 로컬 경로가 자동으로 생성됩니다. 인수를 전달하지 않는 예제:
출력을 만든 다음 출력을 테이블 형식 데이터 세트로 승격하고 이름 foo에 등록하는 예제입니다.
OutputFileDatasetConfig를 초기화합니다. OutputFileDatasetConfig를 사용하면 컴퓨팅 대상의 특정 로컬 경로를 지정된 대상에 업로드할 방법을 지정할 수 있습니다. 생성자에 인수가 전달되지 않으면 이름, 대상 및 로컬 경로가 자동으로 생성됩니다. 인수를 전달하지 않는 예제:
출력을 만든 다음 출력을 테이블 형식 데이터 세트로 승격하고 이름 foo에 등록하는 예제입니다.
|
TabularDataset |
Azure Machine Learning에서 사용할 테이블 형식 데이터 세트를 나타냅니다. TabularDataset는 데이터 원본에서 테이블 형식 표현으로 데이터를 로드하는 일련의 지연 평가, 변경할 수 없는 작업을 정의합니다. TabularDataset에서 데이터를 배달하라는 메시지가 표시될 때까지 데이터는 원본에서 로드되지 않습니다. TabularDataset는 클래스와 같은 from_delimited_files 메서드를 TabularDatasetFactory 사용하여 만들어집니다. 자세한 내용은 데이터 세트 추가 및 등록 문서를 참조하세요. 테이블 형식 데이터 세트 작업을 시작하려면 다음을 참조하세요 https://aka.ms/tabulardataset-samplenotebook. TabularDataset 개체를 초기화합니다. 이 생성자는 직접 호출할 수 없습니다. 데이터 세트는 클래스를 사용하여 TabularDatasetFactory 만들기 위한 것입니다. |