다음을 통해 공유


data 패키지

Azure Machine Learning에서 데이터 저장소 및 데이터 세트에 대한 데이터 표현을 지원하는 모듈을 포함합니다.

이 패키지에는 패키지의 핵심 기능 지원 DatastoreDataset 클래스가 core 포함되어 있습니다. 데이터 저장소 개체에는 스크립트에서 직접 작업하거나 하드 코드 연결 정보 없이 이름으로 쉽게 참조할 수 있는 Azure Storage 서비스에 대한 연결 정보가 포함되어 있습니다. Datastore는 이 패키지의 클래스로 표현되는 다양한 서비스(예AzureBlobDatastore: 및 AzureFileDatastoreAzureDataLakeDatastore)를 지원합니다. 지원되는 스토리지 서비스의 전체 목록은 클래스를 Datastore 참조하세요.

데이터 저장소는 데이터 파일의 컨테이너 역할을 하지만 데이터 세트는 데이터 저장소에 있는 특정 데이터에 대한 참조 또는 포인터로 간주할 수 있습니다. 지원되는 데이터 세트 형식은 다음과 같습니다.

  • TabularDataset 는 제공된 파일 또는 파일 목록을 구문 분석하여 만든 테이블 형식의 데이터를 나타냅니다.

  • FileDataset 는 데이터 저장소 또는 공용 URL의 단일 또는 여러 파일을 참조합니다.

자세한 내용은 데이터 세트 추가 및 등록 문서를 참조하세요. 데이터 세트 작업을 시작하려면 다음을 참조 https://aka.ms/tabulardataset-samplenotebook 하세요 https://aka.ms/filedataset-samplenotebook.

모듈

abstract_dataset

Azure Machine Learning의 데이터 세트에 대한 추상 기본 클래스를 포함합니다.

abstract_datastore

Azure Storage 서비스에 연결 정보를 저장하는 데이터 저장소의 기본 기능을 포함합니다.

azure_data_lake_datastore

Azure Data Lake Storage에 연결 정보를 저장하는 데이터 저장소의 기본 기능을 포함합니다.

azure_my_sql_datastore

Azure Database for MySQL에 연결 정보를 저장하는 데이터 저장소의 기본 기능을 포함합니다.

azure_postgre_sql_datastore

Azure Database for PostgreSQL에 대한 연결 정보를 저장하는 데이터 저장소의 기본 기능을 포함합니다.

azure_sql_database_datastore

Azure SQL 데이터베이스에 연결 정보를 저장하는 데이터 저장소의 기본 기능을 포함합니다.

azure_storage_datastore

Azure Blob 및 Azure File Storage에 연결 정보를 저장하는 데이터 저장소에 대한 기능을 포함합니다.

constants

azureml.data 패키지에 사용되는 상수입니다. 내부용으로만 사용됩니다.

context_managers

데이터 저장소 및 데이터 세트의 데이터 컨텍스트를 관리하는 기능을 포함합니다. 내부용으로만 사용됩니다.

data_reference

데이터 저장소에서 데이터에 대한 참조를 만드는 방법을 정의하는 기능을 포함합니다.

datacache

Azure Machine Learning에서 DatacacheStore 및 Datacache를 관리하기 위한 기능이 포함되어 있습니다.

datacache_client

내부용으로만 사용됩니다.

datacache_consumption_config

DataCache 사용 구성에 대한 기능을 포함합니다.

datacache_singularity_settings

Datacache 특이점 설정 표현에 필요한 개체를 포함합니다.

datapath

데이터 저장소의 데이터에 대한 참조를 만드는 기능을 포함합니다.

이 모듈에는 데이터의 위치를 나타내는 클래스와 DataPath 컴퓨팅 대상에서 데이터를 사용할 수 있는 방법을 나타내는 클래스가 포함되어 DataPathComputeBinding 있습니다.

dataset_action_run

데이터 세트 작업의 실행을 관리하는 기능을 포함합니다.

이 모듈에서는 데이터 세트 작업을 만들고 완료 후 결과를 가져오기 위한 편리한 방법을 제공합니다.

dataset_consumption_config

데이터 세트 사용 구성에 대한 기능을 포함합니다.

dataset_definition

데이터 세트 정의 및 해당 작업을 관리하는 기능이 포함되어 있습니다.

비고

이 모듈은 더 이상 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

dataset_error_handling

Azure Machine Learning에서 데이터 세트 오류 처리에 대한 예외를 포함합니다.

dataset_factory

Azure Machine Learning용 데이터 세트를 만드는 기능이 포함되어 있습니다.

dataset_profile

데이터 흐름에서 생성된 데이터에 대한 요약 통계를 수집하기 위한 클래스입니다.

이 모듈의 기능에는 프로필이 부실한지 여부에 관계없이 프로필을 생성한 실행에 대한 정보 수집이 포함됩니다.

dataset_profile_run

Azure Machine Learning에서 실행되는 데이터 세트 프로필을 모니터링하기 위한 구성을 포함합니다.

이 모듈의 기능에는 실험 개체 및 개별 실행 ID와 연결된 데이터 세트 프로필 실행 처리 및 모니터링이 포함됩니다.

dataset_profile_run_config

Azure Machine Learning에서 데이터 세트의 통계 요약을 생성하는 구성을 포함합니다.

이 모듈의 기능에는 로컬 또는 원격 프로필 실행을 제출하고 제출된 프로필 실행의 결과를 시각화하는 메서드가 포함됩니다.

dataset_snapshot

데이터 세트 스냅샷 작업을 관리하는 기능이 포함되어 있습니다.

비고

이 모듈은 더 이상 사용되지 않습니다. 자세한 내용은 https://aka.ms/dataset-deprecation를 참조하세요.

dataset_type_definitions

와 함께 Dataset사용되는 열거형 값을 포함합니다.

datastore_client

내부용으로만 사용됩니다.

dbfs_datastore

DBFS(Databricks File Sytem)에 연결 정보를 저장하는 데이터 저장소에 대한 기능을 포함합니다.

file_dataset

데이터 저장소 또는 공용 URL에서 단일 또는 여러 파일을 참조하는 기능을 포함합니다.

자세한 내용은 데이터 세트 추가 및 등록 문서를 참조하세요. 파일 데이터 세트 작업을 시작하려면 다음을 참조하세요 https://aka.ms/filedataset-samplenotebook.

hdfs_datastore

HDFS 클러스터에 연결 정보를 저장하는 데이터 저장소의 기본 기능을 포함합니다.

output_dataset_config

작업에 대한 출력을 업로드하고 데이터 세트로 승격하는 방법을 지정하는 구성을 포함합니다.

자세한 내용은 출력을 지정하는 방법을 참조하세요.

sql_data_reference

SQL 데이터베이스에 연결 정보를 저장하는 데이터 저장소의 데이터에 대한 참조를 만드는 기능을 포함합니다.

stored_procedure_parameter

SQL 저장 프로시저에 전달할 매개 변수를 만드는 기능을 포함합니다.

tabular_dataset

제공된 파일 또는 파일 목록을 구문 분석하여 테이블 형식으로 데이터를 나타내는 기능을 포함합니다.

자세한 내용은 데이터 세트 추가 및 등록 문서를 참조하세요. 테이블 형식 데이터 세트 작업을 시작하려면 다음을 참조하세요 https://aka.ms/tabulardataset-samplenotebook.

클래스

DataType

Azure Machine Learning에서 만든 데이터 세트에 대한 열 데이터 형식을 구성합니다.

DataType 메서드는 새 TabularDataset 개체를 만드는 데 사용되는 클래스 TabularDatasetFactory 메서드에 사용됩니다from_*.

DatacacheStore

비고

이는 실험적 클래스이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요.

Azure Machine Learning 스토리지 계정에 대한 스토리지 추상화입니다.

DatacacheStores는 작업 영역에 연결되며 기본 데이터 캐시 솔루션과 관련된 정보를 저장하는 데 사용됩니다. 현재 분할된 Blob 솔루션만 지원됩니다. Datacachestores는 캐싱에 사용할 수 있는 다양한 Blob 데이터 저장소를 정의합니다.

이 클래스를 사용하여 데이터 서버 등록, 나열, 가져오기 및 업데이트 등의 관리 작업을 수행할 수 있습니다. 각 서비스에 대한 DatacacheStores는 이 클래스의 메서드를 사용하여 register* 만들어집니다.

이름으로 datacachestore를 가져옵니다. 이 호출은 데이터 캐시 서비스에 대한 요청을 수행합니다.

FileDataset

Azure Machine Learning에서 사용할 데이터 저장소 또는 공용 URL의 파일 참조 컬렉션을 나타냅니다.

FileDataset은 데이터 원본에서 파일 스트림으로 데이터를 로드하는 일련의 지연 평가, 변경할 수 없는 작업을 정의합니다. FileDataset에서 데이터를 배달하라는 메시지가 표시될 때까지 데이터는 원본에서 로드되지 않습니다.

FileDatasetFactory 클래스의 메서드를 from_files 사용하여 FileDataset을 만듭니다.

자세한 내용은 데이터 세트 추가 및 등록 문서를 참조하세요. 파일 데이터 세트 작업을 시작하려면 다음을 참조하세요 https://aka.ms/filedataset-samplenotebook.

FileDataset 개체를 초기화합니다.

이 생성자는 직접 호출할 수 없습니다. 데이터 세트는 클래스를 사용하여 FileDatasetFactory 만들기 위한 것입니다.

HDFSOutputDatasetConfig

HDFS 경로로 출력하고 FileDataset로 승격되는 방법을 나타냅니다.

HDFSOutputDatasetConfig를 초기화합니다.

LinkFileOutputDatasetConfig

비고

이는 실험적 클래스이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요.

실행의 출력을 연결하고 FileDataset으로 승격하는 방법을 나타냅니다.

LinkFileOutputDatasetConfig를 사용하면 파일 데이터 세트를 출력 데이터 세트로 연결할 수 있습니다.


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

LinkFileOutputDatasetConfig를 초기화합니다.

LinkTabularOutputDatasetConfig

비고

이는 실험적 클래스이며 언제든지 변경 될 수 있습니다. 자세한 내용은 https://aka.ms/acr/connected-registry을 참조하세요.

실행의 출력을 연결하고 TabularDataset로 승격하는 방법을 나타냅니다.

LinkTabularOutputDatasetConfig를 사용하면 파일 테이블 형식을 출력 데이터 세트로 연결할 수 있습니다.


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

LinkTabularOutputDatasetConfig를 초기화합니다.

OutputFileDatasetConfig

실행의 출력을 복사하고 FileDataset으로 승격하는 방법을 나타냅니다.

OutputFileDatasetConfig를 사용하면 컴퓨팅 대상의 특정 로컬 경로를 지정된 대상에 업로드할 방법을 지정할 수 있습니다. 생성자에 인수가 전달되지 않으면 이름, 대상 및 로컬 경로가 자동으로 생성됩니다.

인수를 전달하지 않는 예제:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

출력을 만든 다음 출력을 테이블 형식 데이터 세트로 승격하고 이름 foo에 등록하는 예제입니다.


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

OutputFileDatasetConfig를 초기화합니다.

OutputFileDatasetConfig를 사용하면 컴퓨팅 대상의 특정 로컬 경로를 지정된 대상에 업로드할 방법을 지정할 수 있습니다. 생성자에 인수가 전달되지 않으면 이름, 대상 및 로컬 경로가 자동으로 생성됩니다.

인수를 전달하지 않는 예제:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

출력을 만든 다음 출력을 테이블 형식 데이터 세트로 승격하고 이름 foo에 등록하는 예제입니다.


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Azure Machine Learning에서 사용할 테이블 형식 데이터 세트를 나타냅니다.

TabularDataset는 데이터 원본에서 테이블 형식 표현으로 데이터를 로드하는 일련의 지연 평가, 변경할 수 없는 작업을 정의합니다. TabularDataset에서 데이터를 배달하라는 메시지가 표시될 때까지 데이터는 원본에서 로드되지 않습니다.

TabularDataset는 클래스와 같은 from_delimited_files 메서드를 TabularDatasetFactory 사용하여 만들어집니다.

자세한 내용은 데이터 세트 추가 및 등록 문서를 참조하세요. 테이블 형식 데이터 세트 작업을 시작하려면 다음을 참조하세요 https://aka.ms/tabulardataset-samplenotebook.

TabularDataset 개체를 초기화합니다.

이 생성자는 직접 호출할 수 없습니다. 데이터 세트는 클래스를 사용하여 TabularDatasetFactory 만들기 위한 것입니다.