델타 레이크 델타 레이크란?
델타 레이크는 기존 데이터 레이크와는 별도로 실행되어 안정성, 보안 및 성능을 개선하도록 설계된 오픈 소스 스토리지 레이어로, ACID 트랜잭션, 확장 가능한 메타데이터, 통합 스트리밍 및 배치 데이터 처리를 지원합니다.
- 델타 레이크의 역할
- 델타 레이크의 작동 원리
- 델타 레이크의 특징 및 이점
- 델타 레이크, 데이터 레이크 또는 데이터 웨어하우스 비교
- HPE와 델타 레이크
델타 레이크의 역할
오늘날의 회사는 대량의 데이터를 생성하는데 이를 적절하게 활용할 수 있다면 비즈니스 인텔리전스와 인사이트의 소중한 소스가 될 수 있습니다. 델타 레이크를 통해 조직은 실시간으로 새 데이터에 액세스하고 이를 분석할 수 있습니다.
델타 레이크의 작동 원리
델타 레이크는 구조화된 데이터, 반구조화된 데이터 및 구조화되지 않은 데이터에 대한 개방형 스토리지 환경에 지능형 데이터 관리 및 거버넌스 레이어를 추가해 단일 소스로부터의 스트리밍과 배치 작업을 모두 지원합니다.
델타 레이크의 특징 및 이점
- 개방형 형식: 델타 레이크는 오픈 소스 Apache Parquet 형식을 사용하고 Apache Spark 통합 분석 엔진과 완전히 호환되어 강력하고 유연한 작업이 가능합니다.
- ACID 트랜잭션: 델타 레이크를 통해 빅 데이터 워크로드에 대한 ACID(원자성, 일관성, 고립성, 지속성) 트랜잭션이 가능합니다. 직렬화된 트랜잭션 로그에서 데이터에 대한 모든 변경 사항을 캡처해 데이터의 무결성과 신뢰성을 보호하고 전체적으로 정확한 감사 추적을 제공합니다.
- 시간 이동: 델타 레이크의 트랜잭션 로그는 데이터의 모든 변경 사항에 대한 마스터 레코드를 제공하므로 어느 시점에서든 데이터 세트의 정확한 상태를 재현하는 것이 가능합니다. 데이터 버전 관리로 데이터 분석과 실험의 완전한 재현이 가능합니다.
- 스키마 규정 준수 강제: 델타 레이크는 강력한 스키마 규정 준수 강제를 통해 데이터의 품질과 일관성을 보호하여 데이터 유형이 올바르고 완전한지 보장하고 악성 데이터로 인해 중요 프로세스가 손상되는 것을 방지합니다.
- 병합, 업데이트, 삭제: 델타 레이크는 스트리밍 업서트, 변경 데이터 캡처, SCD(느린 변경 차원) 작업과 같이 컴플라이언스 및 복잡한 사용 사례에 대한 병합, 업데이트 및 삭제 명령 등 DML(데이터 조작 언어) 작업을 지원합니다.
델타 레이크, 데이터 레이크 또는 데이터 웨어하우스 비교
델타 레이크는 데이터 레이크와 데이터 웨어하우스의 장점을 결합하여 확장 가능하고 비용 효율적인 데이터 레이크하우스를 만듭니다. 델타 레이크와 데이터 레이크의 비교, 데이터 레이크하우스와 데이터 웨어하우스의 비교에 대해 알아보십시오.
델타 레이크
델타 레이크는 데이터 스토리지의 진화로, 실시간 분석, AI(인공 지능), ML(기계 학습) 애플리케이션에 필요한 성능과 민첩성을 떨어뜨리지 않으면서 원본 데이터의 무결성을 보존합니다.
데이터 레이크
데이터 레이크는 여러 형식의 원시 데이터가 대량으로 누적된 것입니다. 데이터 레이크에 있는 정보의 큰 규모와 다양성으로 인해 분석이 번거로워질 수 있으며, 감사나 거버넌스 없이는 데이터의 품질과 일관성을 신뢰할 수 없습니다.
데이터 레이크하우스
데이터 레이크하우스는 데이터 레이크의 유연성 및 확장성과 데이터 웨어하우스의 구조 및 관리 기능을 단순한 개방형 플랫폼으로 결합합니다.
데이터 웨어하우스
데이터 웨어하우스는 여러 소스로부터 정보를 수집한 다음 형식을 변경하고 분석과 보고에 최적화된 대규모의 통합 구조화된 데이터 볼륨으로 구성합니다. 독점 소프트웨어와 구조화되지 않은 데이터를 저장할 수 없다는 점은 유용성에 제한을 가할 수 있습니다.
HPE와 델타 레이크
- HPE GreenLake 엣지 투 클라우드 플랫폼은 HPE Ezmeral 소프트웨어를 기반으로 델타 레이크가 통합된 Kubernetes 기반 Apache Spark 분석에 최적화되어 있습니다.
- HPE Ezmeral과 델타 레이크를 사용하는 Apache Spark 3.0은 비즈니스 분석과 기계 학습 애플리케이션에 신뢰할 수 있으면서 일관적인 데이터를 제공합니다. Kubernetes 기반 클러스터 오케스트레이션을 통해 데이터 집약적 워크로드의 동적 조정이 가능합니다.
- HPE Ezmeral Runtime은 물리 및 클라우드 기반 인프라에 업계를 선도하는 클러스터 및 애플리케이션 관리를 제공합니다.
- HPE Ezmeral Data Fabric은 데이터 관리 및 테넌트 스토리지를 향상합니다.