Azure Storage Blob 인벤토리는 Azure Blob Storage 계정에 저장된 개체를 관리하고 추적하기 위한 필수 도구입니다. 스토리지 리소스에 대한 포괄적인 개요를 제공하므로 데이터 관리 및 비용 최적화에 대한 정보에 입각한 결정을 내릴 수 있습니다.
Blob 인벤토리 보고서를 사용하도록 설정하면 스토리지 계정의 개체가 인벤토리 정책에 정의된 규칙을 사용하여 주기적으로 검사됩니다. 인벤토리 보고서를 생성하는 데 걸리는 시간은 몇 가지 요인에 따라 달라집니다. 이러한 요인에는 개체 수, 디렉터리 구조, 규칙 하위 형식을 통해 적용된 필터, 스토리지 계정의 고객 워크로드, 스토리지 리소스의 가용성 등이 포함됩니다. 경우에 따라 이러한 요인에 따라 스토리지 계정의 모든 개체 처리를 완료하는 데 며칠이 걸릴 수 있습니다. 인벤토리의 성능은 검사마다 다를 수 있으며 검사 중에도 달라질 수 있습니다.
Blob 인벤토리 성능에 영향을 주는 요인
Blob 인벤토리를 사용하여 인벤토리 보고서를 생성하는 경우 몇 가지 주요 요소가 성능에 영향을 미칠 수 있습니다. 이러한 요소를 이해하면 인벤토리 프로세스를 최적화하고 효율적인 데이터 관리를 가능하게 할 수 있습니다.
계층 구조 네임스페이스 사용 계정의 개체 배포
계층 구조 네임스페이스 사용 계정 내의 개체 배포는 인벤토리 성능에 큰 영향을 줄 수 있습니다. Blob 인벤토리는 한 번에 하나의 디렉터리를 검색하고 다음 디렉터리로 이동하기 전에 해당 검사를 완료합니다. 따라서 특히 스파스 개체 배포 및 심층 중첩을 사용하는 디렉터리 수가 많으면 인벤토리 보고서를 생성하는 데 필요한 시간이 늘어나게 될 수 있습니다.
인벤토리 규칙에 대해 처리된 개체 수
인벤토리 규칙을 기반으로 검색된 총 개체 수는 성능 처리의 핵심 요소입니다. 대량의 개체를 대상으로 하는 규칙에는 인벤토리 보고서를 생성하는 데 더 많은 시간과 리소스가 필요합니다. 인벤토리 규칙에 버전, 스냅샷 및 일시 삭제된 개체가 포함된 경우 처리할 개체 수가 증가합니다. 이러한 하위 형식이 대량으로 존재하는 경우 인벤토리 보고서를 생성하는 데 필요한 처리 시간을 더 연장할 수 있습니다.
인벤토리 보고서의 내보내기 형식
인벤토리 보고서(CSV 또는 Apache Parquet)에 대해 선택한 내보내기 형식이 성능에 영향을 줄 수 있습니다. Parquet은 빠른 데이터 처리에 최적화되어 있지만 CSV에 비해 보고서 생성 속도가 느려질 수 있는 오버헤드가 발생합니다.
일시 삭제된 개체의 개수가 많습니다.
일시 삭제된 개체는 영구적으로 제거되지는 않지만 여전히 인벤토리 검사에 포함됩니다. 이러한 개체의 양이 많을 경우 처리 시간이 늘어나고 성능이 저하됩니다. 이러한 요소를 고려하여 인벤토리 실행의 성능을 향상시키고 보다 효율적인 데이터 관리 환경을 제공할 수 있습니다.
Blob 인벤토리 성능 향상을 위한 모범 사례
Azure Blob Storage를 효율적으로 관리하는 것은 최적의 성능과 비용 효율성을 유지하는 데 필수적입니다. Azure Storage Blob 인벤토리의 성능을 향상시키기 위한 몇 가지 모범 사례는 다음과 같습니다.
계층 구조 네임스페이스 사용 계정에서 스파스 계정 방지
스파스 계정은 많은 디렉터리에 분산된 많은 수의 개체를 포함하는 계정입니다. 이러한 디렉터리에는 깊이 중첩된 구조체가 포함될 수도 있고 포함되지 않을 수도 있습니다. 스파스 계정은 파일-디렉터리 비율이 매우 낮아 인벤토리 보고서 생성의 비효율성을 유발하고 심지어 실패로 이어질 수 있습니다. 이러한 비효율성을 완화하려면 계층 구조 네임스페이스 사용 스토리지 계정이 잘 구성되어 있는지 확인하고 개체의 스파스 배포를 방지합니다.
내보내기 형식에 CSV 사용
인벤토리 보고서를 생성할 때 사용 사례에 빠른 데이터 처리가 필요하지 않은 경우 csv 형식을 선택합니다. Parquet은 성능에 최적화된 열 형식 스토리지 파일 형식이며 데이터 처리를 위해 읽을 수 있는 가장 빠른 형식 중 하나입니다. 그러나 parquet 형식은 오버헤드로 인해 보고서를 생성하는 데 필요한 시간이 늘어나서 csv 형식으로 보고서를 생성하는 것보다 느려질 수 있습니다. 보고서를 사후 처리하는 데 parquet 형식이 필요한 경우 CSV를 parquet 형식으로 변환하는 사용 가능한 오픈 소스 도구를 활용할 수 있습니다.
접두사를 사용하여 인벤토리 규칙 범위 지정
전체 스토리지 계정에서 인벤토리를 실행하는 대신 접두사 일치 필터를 사용하여 데이터의 특정 하위 집합에 대한 인벤토리 보고서를 생성합니다.
접두사 포함: 이 필터는 컨테이너 내의 컨테이너 또는 경로 집합을 대상으로 합니다. 이 방법은 인벤토리 보고서의 범위를 좁혀 프로세스를 더 빠르고 효율적으로 만드는 데 도움이 됩니다.
접두사 제외: 이 필터를 사용하여 일부 특정 하위 집합을 제외합니다. 이 방법은 인벤토리 보고서의 범위를 좁히는 데도 도움이 됩니다. 자세한 내용은 규칙 필터를 참조하세요.
관련 필드 선택
필요한 관련 필드만 선택하여 인벤토리 보고서를 사용자 지정합니다. 이렇게 하면 처리 및 내보내는 데이터의 양이 줄어들어 보고서 생성이 빨라지고 분석이 쉬워질 수 있습니다. 인벤토리 스키마 필드에 대한 자세한 내용은 Blob 인벤토리에 지원되는 사용자 지정 스키마 필드를 참조하세요.
하위 형식 포함: 삭제된 개체, 스냅샷 및 버전
이러한 하위 형식을 포함하면 스토리지 계정에 대한 보다 포괄적인 보기를 제공할 수 있지만 감사 및 관리 요구 사항에 필수적인지 여부를 평가하는 것이 중요합니다. 중요하지 않은 경우 제외하면 보고서 생성 프로세스의 성능과 효율성을 개선하는 데 도움이 될 수 있습니다. 최근 인벤토리 실행에서 삭제된 개체를 식별하려면 현재 실행의 Blob 이름과 이전 실행의 Blob 이름을 비교합니다. 이 차이는 최근에 삭제된 개체 목록을 제공할 수 있습니다.
Blob 인벤토리 이벤트 구독
Blob 인벤토리 이벤트를 구독하여 사용자 유도 오류에 대한 정보를 유지합니다. 이 사전 예방적 접근 방식은 문제를 신속하게 해결하는 데 도움이 됩니다. 인벤토리 이벤트를 구독하는 방법에 대한 자세한 내용은 Blob 인벤토리 정책 완료 이벤트 구독을 참조하세요.
예기치 않은 용량 증가 모니터링
Blob 버전, 스냅샷 또는 일시 삭제된 개체의 누적을 알릴 수 있으므로 스토리지 계정 용량의 예기치 않은 급증에 주의하세요. 이러한 변경 내용을 모니터링하면 성능에 영향을 주기 전에 잠재적인 문제를 감지하고 해결하는 데 도움이 될 수 있습니다. 또한 이러한 개체의 수명 주기를 관리하면 불필요한 빌드를 방지하고 Blob 인벤토리 성능을 향상시킬 수 있습니다. Blob 수명 주기 관리에 대한 자세한 내용은 Azure Blob Storage 수명 주기 관리 개요를 참조하세요.
이러한 모범 사례를 따르면 Blob 인벤토리의 성능을 향상시켜 Azure Blob Storage의 효율적이고 효과적인 관리를 보장할 수 있습니다.