이 문서에서는 Azure Databricks를 효과적으로 사용하기 위해 이해해야 하는 기본 구성 요소를 소개합니다.
계정 및 작업 영역
Azure Databricks에서 작업 영역 은 팀이 Databricks 자산에 액세스할 수 있는 환경으로 작동하는 클라우드의 Azure Databricks 배포입니다. 조직에서는 여러 작업 영역을 선택하거나 하나만 선택할 수 있으며, 이는 해당 요구 사항에 따라 달라집니다.
Azure Databricks 계정은 여러 작업 영역을 포함할 수 있는 단일 엔터티를 나타냅니다. Unity 카탈로그에 사용하도록 설정된 계정은 계정의 모든 작업 영역에서 중앙에서 사용자 및 데이터에 대한 액세스를 관리하는 데 사용할 수 있습니다.
청구 정보: Databricks 단위(DBU)
Azure Databricks는 VM 인스턴스 유형에 따라 시간당 처리 기능 단위인 DBU(Databricks 단위)를 기준으로 요금을 청구합니다.
Azure Databricks 가격 책정 페이지를 참조하세요.
인증 및 권한 부여
이 섹션에서는 Azure Databricks ID 및 Azure Databricks 자산에 대한 액세스를 관리할 때 알아야 할 개념을 설명합니다.
사용자
사용자는 시스템에 액세스할 수 있는 고유한 개인입니다. 사용자 ID는 이메일 주소로 표시됩니다. 사용자 관리를 참조하세요.
서비스 주체
작업, 자동화된 도구 및 스크립트, 앱, CI/CD 플랫폼과 같은 시스템에서 사용하기 위한 서비스 ID입니다. 서비스 주체는 애플리케이션 ID로 표시됩니다. 서비스 주체를 참조하세요.
그룹
정체성의 모음입니다. 그룹은 ID 관리를 간소화하여 작업 영역, 데이터 및 기타 보안 개체에 대한 액세스를 더 쉽게 할당할 수 있도록 합니다. 모든 Databricks ID는 그룹의 멤버로 할당할 수 있습니다. 그룹을 참조하세요.
ACL(액세스 제어 목록)
작업 영역, 클러스터, 작업, 테이블 또는 실험에 연결된 사용 권한 목록입니다. ACL은 개체에 대한 액세스 권한이 부여되는 사용자 또는 시스템 프로세스와 자산에 허용되는 작업을 지정합니다. 일반적인 ACL의 각 항목은 제목과 작업을 지정합니다. 액세스 제어 목록을 참조하세요.
PAT(개인용 액세스 토큰)
개인 액세스 토큰은 REST API 호출, 기술 파트너 연결 및 기타 도구를 인증하는 데 사용되는 문자열입니다. Azure Databricks 개인용 액세스 토큰 인증을 참조하세요.
Microsoft Entra ID 토큰을 사용하여 REST API에 인증할 수도 있습니다.
Azure Databricks 인터페이스
이 섹션에서는 Azure Databricks의 자산에 액세스하는 인터페이스에 대해 설명합니다.
사용자 인터페이스
Azure Databricks UI는 작업 영역 폴더와 이에 포함된 개체, 데이터 개체 및 계산 리소스와 같은 기능과 상호 작용하기 위한 그래픽 인터페이스입니다.
REST API (REST 애플리케이션 프로그래밍 인터페이스)
Databricks REST API는 Azure Databricks 계정 및 작업 영역 개체에 대한 정보를 수정하거나 요청하기 위한 엔드포인트를 제공합니다. 계정 참조 및 작업 영역 참조를 참조하세요.
SQL REST API
SQL REST API를 사용하면 SQL 개체에 대한 태스크를 자동화할 수 있습니다. SQL API를 참조하세요.
명령줄 인터페이스 (CLI)
Databricks CLI는 GitHub에서 호스트됩니다. CLI는 Databricks REST API 위에 빌드됩니다.
데이터 관리
이 섹션에서는 Azure Databricks에서 데이터를 구성하고 관리하는 데 사용되는 도구 및 논리 개체에 대해 설명합니다. Azure Databricks의 데이터베이스 개체를 참조하세요.
Unity 카탈로그
Unity 카탈로그는 Databricks 작업 영역에서 중앙 집중식 액세스 제어, 감사, 계보 및 데이터 검색 기능을 제공하는 Azure Databricks의 데이터 및 AI 자산에 대한 통합 거버넌스 솔루션입니다. Unity 카탈로그란?을 참조하세요.
카탈로그
카탈로그는 Azure Databricks에서 데이터를 구성하고 격리하기 위한 가장 높은 수준의 컨테이너입니다. 동일한 지역 및 계정 내의 작업 영역에서 카탈로그를 공유할 수 있습니다. Azure Databricks의 카탈로그란?을 참조하세요.
스키마
데이터베이스라고도 하는 스키마는 카탈로그 내에 포함되며 보다 세분화된 수준의 조직을 제공합니다. 여기에는 볼륨, 테이블, 함수 및 모델과 같은 데이터베이스 개체 및 AI 자산이 포함됩니다. Azure Databricks의 스키마란?을 참조하세요.
테이블
테이블은 구조화된 데이터에 대한 액세스를 구성하고 제어합니다. Apache Spark SQL과 Apache Spark API를 사용하여 테이블을 쿼리합니다. Azure Databricks 테이블 소개를 참조하세요.
보기
뷰는 하나 이상의 테이블과 뷰에서 파생된 읽기 전용 개체입니다. 뷰는 테이블에 대해 정의된 쿼리를 저장합니다. 보기란?을 참조하세요.
음량
볼륨은 클라우드 개체 스토리지 위치에 있는 스토리지의 논리적 볼륨을 나타내며 테이블 형식이 아닌 데이터에 대한 액세스를 구성하고 제어합니다. Databricks는 클라우드 개체 스토리지에서 테이블 형식이 아닌 데이터에 대한 모든 액세스를 관리하기 위해 볼륨을 사용하는 것이 좋습니다. Unity 카탈로그 볼륨이란?을 참조하세요.
델타 테이블
Azure Databricks에서 생성된 모든 테이블은 기본적으로 Delta 테이블입니다. 델타 테이블은 클라우드 개체 저장소를 통해 고성능 ACID 테이블 스토리지를 위한 프레임워크인 Delta Lake 오픈 소스 프로젝트를 기반으로 합니다. Delta 테이블은 데이터를 클라우드 개체 스토리지에 파일 디렉터리로 저장하고 테이블 메타데이터를 카탈로그 및 스키마 내의 메타스토어에 등록합니다.
Delta로 브랜딩된 기술에 대해 자세히 알아보세요.
메타 저장소
Unity 카탈로그는 데이터, AI 및 카탈로그, 스키마 및 테이블에 대한 권한에 대한 메타데이터를 등록하는 계정 수준 메타스토어를 제공합니다. 메타스토어를 참조하세요.
Azure Databricks는 Unity 카탈로그를 채택하지 않은 고객을 위해 레거시 Hive 메타스토어를 제공합니다. Hive 메타스토어 테이블 액세스 제어(레거시)를 참조하세요.
카탈로그 탐색기
카탈로그 탐색기를 사용하면 스키마(데이터베이스), 테이블, 모델, 볼륨(표 형식이 아닌 데이터), 함수 및 등록된 ML 모델을 비롯한 데이터 및 AI 자산을 탐색하고 관리할 수 있습니다. 이를 사용하여 데이터 개체 및 소유자를 찾고, 테이블 간의 데이터 관계를 이해하고, 사용 권한 및 공유를 관리할 수 있습니다. 카탈로그 탐색기란?을 참조하세요.
DBFS 루트
중요
DBFS 루트 또는 DBFS 탑재를 사용한 데이터 저장 및 액세스는 사용되지 않는 패턴이며 Databricks에서 권장하지 않습니다. 대신 Databricks는 Unity 카탈로그를 사용하여 모든 데이터에 대한 액세스를 관리하는 것이 좋습니다. Unity 카탈로그란?을 참조하세요.
DBFS 루트는 기본적으로 모든 사용자가 사용할 수 있는 스토리지 위치입니다. DBFS란?을 참조하세요.
계산 관리
이 섹션에서는 Azure Databricks에서 계산을 실행하기 위해 알아야 할 개념을 설명합니다.
클러스터
노트북과 작업을 실행하는 데 필요한 계산 리소스와 설정의 집합입니다. 클러스터에는 다목적 및 작업의 두 가지 유형이 있습니다. Compute를 참조하세요.
- UI, CLI 또는 REST API를 사용하여 다목적 클러스터 를 만듭니다. 다목적 클러스터를 수동으로 종료하고 다시 시작할 수 있습니다. 여러 사용자가 클러스터를 공유하여 공동으로 대화형 분석을 수행할 수 있습니다.
- Azure Databricks 작업 스케줄러는 새 작업 클러스터에서 작업을 실행할 때 작업 클러스터 를 만들고 작업이 완료되면 클러스터를 종료합니다. 작업 클러스터를 다시 시작할 수 없습니다 .
풀
유휴 상태로, 클러스터 시작 및 자동 크기 조정 시간을 줄여 주는 즉시 사용 가능한 인스턴스 집합입니다. 풀에 연결된 경우 클러스터는 풀에서 해당 드라이버 및 작업자 노드를 할당합니다. 풀 구성 참조를 참조하세요.
풀에 클러스터의 요청을 수용하기에 충분한 유휴 리소스가 없는 경우 인스턴스 공급자에서 새 인스턴스를 할당하여 풀이 확장됩니다. 연결된 클러스터가 종료되면 사용된 인스턴스가 풀로 반환되고 다른 클러스터에서 다시 사용할 수 있습니다.
Databricks 실행 환경
Azure Databricks에서 관리하는 클러스터에서 실행되는 핵심 구성 요소 집합입니다. Compute를 참조하세요. Azure Databricks에는 다음과 같은 런타임이 있습니다.
- Databricks Runtime 에는 Apache Spark가 포함되지만 빅 데이터 분석의 유용성, 성능 및 보안을 크게 향상시키는 여러 구성 요소 및 업데이트가 추가됩니다.
- Machine Learning용 Databricks 런타임 은 Databricks 런타임을 기반으로 하며 Azure Databricks 작업 영역의 모든 기능과 통합된 미리 빌드된 기계 학습 인프라를 제공합니다. 또한 TensorFlow, Keras, PyTorch 및 XGBoost를 비롯한 여러 인기 있는 라이브러리가 포함되어 있습니다.
작업 및 파이프라인 UI
작업 및 파이프라인 작업 영역 UI는 워크플로를 구성하고 예약할 수 있는 도구인 작업, Lakeflow 선언적 파이프라인 및 Lakeflow Connect UI에 대한 접근을 제공합니다.
작업
Notebooks, 라이브러리 및 기타 태스크를 오케스트레이션하고 예약하기 위한 비대화형 메커니즘을 제공합니다. Lakeflow 작업을 참조하십시오
파이프라인
Lakeflow 선언적 파이프라인은 안정적이고 유지 관리 가능하며 테스트 가능한 데이터 처리 파이프라인을 빌드하기 위한 선언적 프레임워크를 제공합니다. Lakeflow 선언적 파이프라인을 참조하세요.
업무량
워크로드는 태스크 또는 태스크 그룹을 수행하는 데 필요한 처리 기능의 양입니다. Azure Databricks는 데이터 엔지니어링(작업) 및 데이터 분석(다목적)의 두 가지 유형의 워크로드를 식별합니다.
- 데이터 엔지니어링 (자동화된) 워크로드는 Azure Databricks 작업 스케줄러가 각 워크로드에 대해 만드는 작업 클러스터 에서 실행됩니다.
- 데이터 분석 (대화형) 워크로드는 다목적 클러스터에서 실행됩니다. 대화형 워크로드는 일반적으로 Azure Databricks Notebook 내에서 명령을 실행합니다. 그러나 기존 다목적 클러스터에서 작업을 실행하면 대화형 워크로드로도 처리됩니다.
실행 컨텍스트
지원되는 각 프로그래밍 언어에 대한 REPL(read–eval–print loop) 환경의 상태입니다. 지원되는 언어는 Python, R, Scala, 및 SQL입니다.
데이터 엔지니어링
데이터 엔지니어링 도구는 데이터 과학자, 데이터 엔지니어, 데이터 분석가 및 기계 학습 엔지니어 간의 협업을 지원합니다.
작업 영역
작업 영역은 모든 Azure Databricks 자산에 액세스하기 위한 환경입니다. 작업 영역은 개체(Notebook, 라이브러리, 대시보드 및 실험)를 폴더 로 구성하고 데이터 개체 및 계산 리소스에 대한 액세스를 제공합니다.
노트북
실행 가능한 명령, 시각화 및 설명 텍스트를 포함할 수 있는 데이터 과학 및 기계 학습 워크플로를 만들기 위한 웹 기반 인터페이스입니다. Databricks Notebook을 참조하세요.
라이브러리
클러스터에서 실행 중인 Notebook 또는 작업에 사용할 수 있는 코드 패키지입니다. Databricks Runtime은 많은 라이브러리를 포함하며 사용자가 직접 업로드할 수도 있습니다. 라이브러리 설치를 참조하세요.
Git 폴더(이전 명칭: 리포지토리)
콘텐츠를 원격 Git 리포지토리에 동기화하여 버전이 공동으로 지정된 폴더입니다. Databricks Git 폴더는 Git과 통합되어 프로젝트에 대한 원본 및 버전 제어를 제공합니다.
AI 및 기계 학습
Databricks는 AI 및 기계 학습 애플리케이션을 개발하고 배포하기 위한 관리되는 서비스와 통합 엔드투엔드 환경을 제공합니다.
모자이크 AI
생성형 AI에서 Databricks의 가장 큰 혁신을 담당하는 연구원 및 엔지니어 팀인 Databricks Mosaic AI Research의 제품 및 서비스에 대한 브랜드 이름입니다. Mosaic AI 제품에는 Databricks의 ML 및 AI 기능이 포함됩니다. 모자이크 연구를 참조하세요.
기계 학습 런타임
ML 및 AI 모델 개발을 지원하기 위해 Databricks는 Machine Learning용 Databricks Runtime을 제공하며, 이는 가장 일반적인 ML 및 DL 라이브러리를 포함하여 미리 빌드된 기계 학습 및 딥 러닝 인프라를 사용하여 컴퓨팅 생성을 자동화합니다. 또한 드라이버 및 지원 라이브러리를 포함하여 미리 구성된 기본 제공 GPU 지원도 있습니다. Databricks 런타임 릴리스 정보 버전 및 호환성에서 최신 런타임 릴리스에 대한 정보를 찾습니다.
실험
MLflow 컬렉션은 기계 학습 모델을 학습하기 위해 실행됩니다. MLflow 실험을 사용하여 학습 실행 구성을 참조하세요.
기능
기능은 ML 모델의 중요한 구성 요소입니다. 기능 저장소를 사용하면 조직 전체에서 기능 공유 및 검색을 수행할 수 있고 모델 학습과 유추에 동일한 기능 계산 코드가 사용됩니다. 기능 관리를 참조하세요.
생성형 AI 모델
Databricks는 다음을 포함하여 생성형 AI 모델의 탐색, 개발 및 배포를 지원합니다.
- AI 플레이그라운드는 LLM을 테스트, 프롬프트 및 비교할 수 있는 작업 영역에서 채팅과 유사한 환경입니다. AI Playground를 사용하여 LLM 및 프로토타입 생성 AI 앱과의 채팅을 참조하세요.
- 쿼리할 수 있는 미리 구성된 기본 제공 모델 세트입니다.
- 토큰당 종량제 파운데이션 모델 API를 참조하세요.
- 한 번의 클릭으로 제공할 수 있는 기본 모델은 Unity 카탈로그에서 [권장] 배포 를 참조하세요.
- 외부 모델이라고 하는 타사 호스팅 LLM 이러한 모델은 있는 그대로 사용됩니다.
- 파운데이션 모델을 사용자 지정하여 특정 애플리케이션에 대한 성능을 최적화하는 기능(미세 조정이라고도 함). 파운데이션 모델 미세 조정을 참조하세요.
모델 레지스트리
Databricks는 Unity 카탈로그에서 호스트된 버전의 MLflow 모델 레지스트리를 제공합니다. Unity 카탈로그에 등록된 모델은 중앙 집중식 액세스 제어, 계보, 작업 영역 간 검색 및 액세스를 상속합니다. Unity 카탈로그의 모델 수명 주기 관리를 참조하세요.
모델 제공
Mosaic AI 모델 서비스는 AI 모델을 배포, 관리 및 쿼리하는 통합 인터페이스를 제공합니다. 서비스하는 각 모델은 웹 또는 클라이언트 애플리케이션에 통합할 수 있는 REST API로 사용할 수 있습니다. Mosaic AI 모델 서빙을 사용하면 Databricks 외부에서 호스트되는 고유한 모델, 파운데이션 모델 또는 제3자 모델을 배포할 수 있습니다. Mosaic AI 모델 서비스를 사용하여 모델 배포를 참조하세요.
데이터 웨어하우징
데이터 웨어하우징은 비즈니스 인사이트 및 보고를 위해 신속하게 액세스할 수 있도록 여러 원본에서 데이터를 수집하고 저장하는 것을 의미합니다. Databricks SQL은 기존 데이터 레이크에 데이터 웨어하우징 기능 및 성능을 제공하는 서비스 컬렉션입니다. 데이터 웨어하우징 아키텍처를 참조하세요.
쿼리
쿼리는 데이터와 상호 작용할 수 있는 유효한 SQL 문입니다. 플랫폼 내 SQL 편집기를 사용하여 쿼리를 작성하거나 SQL 커넥터, 드라이버 또는 API를 사용하여 연결할 수 있습니다. 쿼리를 사용하는 방법에 대한 자세한 내용은 Access를 참조하고 저장된 쿼리를 관리합니다.
SQL 웨어하우스
SQL 쿼리를 실행하는 계산 리소스입니다. 클래식, 프로, 서버리스의 세 가지 SQL 웨어하우스 형식이 있습니다. Azure Databricks는 사용 가능한 경우 서버리스 데이터 웨어하우스를 사용하는 것이 좋습니다. 각 웨어하우스 유형 에 대해 사용 가능한 기능을 비교하려면 SQL 웨어하우스 유형을 참조하세요.
쿼리 기록
실행된 쿼리 및 해당 성능 특성의 목록입니다. 쿼리 기록을 사용하면 쿼리 성능을 모니터링하여 병목 상태를 식별하고 쿼리 런타임을 최적화할 수 있습니다. 쿼리 기록을 참조하세요.
시각화
쿼리 실행 결과에 대한 그래픽 프레젠테이션입니다. Databricks Notebook 및 SQL 편집기에서 시각화를 참조하세요.
대시보드
데이터 시각화 및 해설의 프레젠테이션입니다. 대시보드를 사용하여 Azure Databricks 계정의 모든 사용자에게 보고서를 자동으로 보낼 수 있습니다. Databricks Assistant를 사용하여 자연어 프롬프트를 기반으로 시각화를 빌드할 수 있습니다. 대시보드를 참조하세요. Notebook에서 대시보드를 만들 수도 있습니다. Notebook의 대시보드를 참조하세요.
레거시 대시보드는 레거시 대시보드를 참조하세요.
중요
- Databricks는 AI/BI 대시보드(이전의 Lakeview 대시보드)를 사용하는 것이 좋습니다. 이전에 Databricks SQL 대시보드라고도 하는 이전 버전의 대시보드를 이제 레거시 대시보드라고 합니다.
지원 종료 타임라인:
2025년 4월 7일: 레거시 버전의 대시보드에 대한 공식 지원이 종료되었습니다. 더 이상 새 레거시 대시보드를 만들 수 없습니다. 중요한 보안 문제 및 서비스 중단만 해결됩니다.
2025년 11월 3일: Databricks는 지난 6개월 동안 액세스되지 않은 레거시 대시보드를 보관하기 시작합니다. 보관된 대시보드는 더 이상 액세스할 수 없으며 보관 프로세스는 롤링 방식으로 수행됩니다. 적극적으로 사용되는 대시보드에 대한 액세스는 변경되지 않습니다.
Databricks는 고객과 협력하여 2025년 11월 3일 이후에 활성 레거시 대시보드에 대한 마이그레이션 계획을 개발할 것입니다.
마이그레이션 도구 또는 REST API를 사용하여 레거시 대시보드를 변환합니다. 기본 제공 마이그레이션 도구 사용에 대한 지침은 레거시 대시보드를 AI/BI 대시보드에 복제 를 참조하세요. REST API 를 사용하여 대시보드 를 만들고 관리하는 방법에 대한 자습서는 대시보드 자습서를 참조하세요.