Azure Databricks는 Azure 클라우드 서비스에 최적화된 데이터 분석 플랫폼입니다. 데이터 집약적 애플리케이션을 개발하기 위한 세 가지 환경을 제공합니다.
Azure Databricks가 빅 데이터 분석의 보안을 개선하는 방법에 대한 자세한 내용은 Azure Databricks 개념을 참조하세요.
다음 섹션에는 디자인 고려 사항, 구성 검사 목록 및 Azure Databricks와 관련된 권장 구성 옵션이 포함됩니다.
디자인 고려 사항
모든 사용자의 전자 필기장 및 전자 필기장 결과는 기본적으로 미사용 시 암호화됩니다. 다른 요구 사항이 있는 경우 Notebook에 고객 관리형 키를 사용하는 것이 좋습니다.
체크리스트
보안을 염두에 두고 Azure Databricks를 구성했나요?
- Azure Data Lake Storage와 통신할 때 서비스 주체가 필요하지 않도록 Microsoft Entra ID 자격 증명 통과 를 사용합니다.
- 공용 액세스에서 작업 영역, 컴퓨팅 및 데이터를 격리합니다. 올바른 사용자만 보안 채널을 통해서만 액세스할 수 있는지 확인합니다.
- 분석을 위한 클라우드 작업 영역은 제대로 관리되는 사용자만 액세스할 수 있는지 확인합니다.
- Azure Private Link를 구현합니다.
- 가상 머신을 제한하고 모니터링합니다.
- 동적 IP 액세스 목록을 사용하여 관리자가 회사 네트워크에서만 작업 영역에 액세스할 수 있습니다.
- VNet 삽입 기능을 사용하여 보다 안전한 시나리오를 사용하도록 설정합니다.
- 진단 로그를 사용하여 작업 영역 액세스 및 권한을 감사하십시오.
- 보안 클러스터 연결 기능 및 허브/스포크 아키텍처를 사용하여 포트를 열고 클러스터 노드에 공용 IP 주소를 할당하지 않도록 하는 것이 좋습니다.
구성 권장 사항
보안을 위해 Azure Databricks 구성을 최적화하려면 다음 권장 사항 표를 살펴보세요.
추천 | 설명 |
---|---|
분석을 위한 클라우드 작업 영역은 제대로 관리되는 사용자만 액세스할 수 있는지 확인합니다. | Microsoft Entra ID는 원격 액세스를 위해 Single Sign-On을 처리할 수 있습니다. 추가 보안을 위해 조건부 액세스를 참조하세요. |
Azure Private Link를 구현합니다. | 플랫폼 사용자, Notebook 및 쿼리를 처리하는 컴퓨팅 클러스터 간의 모든 트래픽이 클라우드 공급자의 네트워크 백본을 통해 암호화되고 전송되며 외부 세계에 액세스할 수 없도록 합니다. |
가상 머신을 제한하고 모니터링합니다. | 쿼리를 실행하는 클러스터에는 임의의 패키지 설치를 방지하기 위해 SSH 및 네트워크 액세스가 제한되어야 합니다. 클러스터는 취약성을 주기적으로 검사하는 이미지만 사용해야 합니다. |
VNet 삽입 기능을 사용하여 보다 안전한 시나리오를 사용하도록 설정합니다. | 예를 들어: - 서비스 엔드포인트를 사용하여 다른 Azure 서비스에 연결 - 온-프레미스 데이터 원본에 연결하고 사용자 정의 경로를 활용합니다. - 네트워크 가상 어플라이언스 연결로 모든 아웃바운드 트래픽을 검사하고 허용 및 거부 규칙에 따라 작업을 수행합니다. - 사용자 지정 DNS 사용. - 기존 가상 네트워크에 Azure Databricks 클러스터 배포 |
진단 로그를 사용하여 작업 공간 액세스 및 권한을 감사합니다. | 감사 로그를 사용하여 클러스터에서 공유되는 작업 영역, 클러스터 크기 조정, 파일 및 폴더에서 권한 있는 활동을 확인합니다. |
원본 아티팩트
Azure Databricks 원본 아티팩트에는 Databricks 블로그: 엔터프라이즈 규모 데이터 플랫폼을 보호하는 모범 사례가 포함됩니다.