데이터 레이크하우스

데이터 레이크하우스란?

데이터 레이크하우스는 데이터 레이크의 유연성과 데이터 웨어하우스의 체계적 기능을 결합하여 다양한 구조화된 데이터 및 구조화되지 않은 데이터의 저장 및 분석을 위한 통합 플랫폼을 제공합니다. 하이브리드 데이터 레이크하우스 아키텍처는 데이터 처리 및 저장에 온프레미스와 클라우드를 활용합니다.

지난 수십 년간 데이터 웨어하우스의 변화

기존의 데이터 웨어하우스는 온프레미스에 있는 구조화된 데이터용으로 설계되었습니다. 또한 리포팅 및 대시보드와 같은 BI(비즈니스 인텔리전스) 기능을 주로 지원했습니다. 최신 데이터 웨어하우스는 더욱 광범위한 데이터 형식을 수용하고, 스토리지 및 처리를 위한 클라우드 플랫폼을 지원하며, 데이터 과학 툴 및 기계 학습 알고리즘의 통합으로 더욱 깊이 있는 데이터 인사이트를 추출할 수 있습니다.

데이터 웨어하우스는 사일로화 및 구조화된 데이터 리포지토리에서 다양한 데이터 형식의 고급 분석을 지원하는 유연한 클라우드 기반 플랫폼으로 진화했습니다. 보안과 데이터 거버넌스를 우선시하면서 점점 자동화되고 사용자 친화적으로 변하고 있습니다. 

관련 HPE 솔루션, 제품 또는 서비스

데이터 레이크란?

데이터 레이크는 엔터프라이즈 전반에서 다양한 비즈니스 애플리케이션, 시스템, 장치에서 생성되는 방대한 양의 구조화되지 않은 데이터 및 반구조화된 데이터를 처리하고 저장할 목적으로 설계된 아키텍처입니다. 기존의 데이터베이스와 달리 파일 API와 경제적인 스토리지 인프라를 활용하여 원시 텍스트, 이미지, 동영상 등 다양한 데이터 유형을 저장할 수 있습니다.

데이터 레이크의 확장성과 접근성으로 특히 기계 학습 및 인공 지능 알고리즘을 위한 고급 분석에 유리합니다. 개방형 파일 형식을 사용하면 상호 운용성이 향상되지만, 데이터 레이크는 기본적으로 데이터의 무결성과 거버넌스를 보장하는 강력함 메커니즘이 부족하다는 점을 고려해야 합니다.

적절하게 관리하지 못하는 경우 데이터 레이크는 중복되고 정리되지 않은 데이터가 축적되어 ‘데이터 늪’이 될 수 있습니다. 이러한 문제로 인해 의미 있는 인사이트를 확보하기가 더욱 복잡해집니다. 내장된 거버넌스가 없어 데이터 무결성, 메터데이터, 액세스 제어를 유지하기 위해서는 사용자가 주의 깊게 감시해야 합니다.

이러한 문제가 있음에도 데이터 레이크는 이기종 데이터 처리를 위한 경제적인 솔루션을 제공하는 현대식 데이터 아키텍처로 충분한 가치가 있습니다. 조직은 데이터 늪 방지를 위한 데이터 카탈로그 작성 및 메타데이터 관리와 같은 추가 기술을 배포하여 레이크 안에서 구조화되고 안정적이고 분석에 적합한 데이터를 보장하는 경우가 많습니다.

데이터 레이크, 데이터 웨어하우스, 데이터 레이크하우스의 주요 차이

데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스는 각각 기업의 특정 데이터 문제에 적합하게 설계된 데이터 관리 아키텍처를 의미합니다.

데이터 구조 및 스키마:

  • 데이터 레이크는 구조와 상관없이 최초 형식으로 데이터를 저장합니다.
  • 데이터 웨어하우스는 스키마가 사전 정의된 구조화된 데이터용으로 설계되었습니다.
  • 데이터 레이크하우스는 구조화된 데이터와 구조화되지 않은 데이터를 둘 다 처리할 수 있어 유연성을 지원하는 동시에 데이터 관리 개선을 위한 스키마를 통합합니다.

 

데이터 처리:

  • 데이터 레이크는 처리되지 않은 원시 데이터를 저장합니다.
  • 데이터 웨어하우스는 분석을 위한 준비를 보장하기 위해 데이터 저장 전에 데이터를 사전에 처리 후 정리 및 변환합니다.
  • 데이터 레이크하우스는 원시 데이터 저장이 가능하며 레이크하우스 환경 안에서의 데이터 처리도 허용합니다.

핵심 영역 및 사용 사례:

  • 데이터 레이크는 대규모 데이터 세트에서 숨겨진 패턴을 확인하고 기계 학습과 같은 고급 분석을 지원하는 탐색적 분석에 적합합니다.
  • 데이터 웨어하우스는 BI(비즈니스 인텔리전스) 및 리포팅용으로 설계되었습니다. 동향 및 인사이트를 위한 과거 데이터 분석을 제공하여 전략적 의사 결정을 지원합니다.
  • 데이터 레이크하우스는 BI를 위한 일정 수준의 데이터 거버넌스를 제공하는 동시에 모든 데이터 유형에 대한 고급 분석의 강점을 결합합니다.

비용 및 확장성: 

  • 데이터 레이크는 비용이 더 낮은 스토리지 솔루션에서 원시 형식으로 데이터를 저장하기 때문에 일반적으로 더 경제적입니다. 확장성이 높아 증가하는 데이터 볼륨을 수용할 수 있습니다.
  • 데이터 웨어하우스는 처리 및 구조화된 스토리지 요건으로 인해 비용이 더 높습니다. 데이터 레이크와 비교하여 확장성이 제한될 수 있습니다.
  • 데이터 레이크하우스는 비용과 확장성 간 균형을 제공합니다. 경제적으로 원시 데이터를 저장할 수 있지만 레이크하우스 환경에서 처리 비용이 추가로 발생할 수 있습니다.

데이터 레이크하우스가 데이터 늪이 되는 것을 방지하는 방법

데이터 레이크는 양의 데이터를 위한 유연한 스토리지 솔루션을 제공하지만 적절한 관리가 없다면 분석이 까다로운 정리되지 않은 저품질 데이터의 리포지토리인 데이터 늪으로 변할 수 있습니다. 데이터 레이크하우스는 데이터 늪이 되는 것을 방지하는 데이터 웨어하우스의 기능을 적용하여 특히 이러한 문제를 해결합니다. 방법은 다음과 같습니다.

데이터 거버넌스:

  • 데이터 레이크하우스는 데이터 소유권 정의, 액세스 제어, 데이터 품질 표준과 같은 데이터 거버넌스 방식을 구현합니다. 이를 통해 데이터의 일관성, 정확성, 추적 가능성을 보장하고 관련이 없거나 신뢰할 수 없는 데이터가 레이크에 축적되는 것을 방지합니다. 데이터 웨어하우스는 이미 이러한 방식이 적용되어 있습니다.
  • 반면에 데이터 레이크는 강력한 거버넌스가 부족한 경우가 많아 데이터 수집이 제어되지 않고 중복이나 오류가 발생할 가능성이 있습니다.

 

데이터 스키마:

  • 데이터 레이크하우스는 어느 정도의 스키마 정의를 허용하여 데이터를 일정 범위까지 정리하는 데 도움이 됩니다. 따라서 완전히 구조화되지 않은 데이터 레이크와 비교하여 분석에 필요한 데이터를 더 쉽게 검색할 수 있습니다. 데이터 웨어하우스의 엄격한 구조를 강요하지 않으며 데이터 관리 개선을 위한 중간 지대를 제공합니다.
  • 데이터 레이크는 구조화되지 않은 데이터나 반구조화된 데이터 등 데이터를 최초 형식으로 저장합니다. 따라서 유연성이 향상되지만 데이터 탐색 및 분석의 복잡성이 증가합니다.

 

데이터 라이프 사이클 관리:

  • 데이터 레이크하우스는 데이터 라이프 사이클 관리를 지원합니다. 사전 정의된 규칙을 바탕으로 데이터를 식별 및 분류하고 잠재적으로 아카이브 또는 삭제하는 프로세스가 포함됩니다. 이를 통해 레이크하우스에 관련이 없거나 오래된 데이터가 축적되는 것을 방지하여 레이크하우스를 간결하게 효율적으로 유지할 수 있습니다.
  • 데이터 레이크는 적절한 데이터 라이프 사이클 관리가 부족한 경우가 많아 데이터가 급증하고 관련 없는 정보 속에서 중요한 인사이트를 찾기가 어려워질 수 있습니다.

 

데이터 품질 도구:

  • 데이터 레이크하우스는 데이터 품질 도구와 통합하여 데이터 수집 중에 또는 레이크하우스 환경 안에서 데이터를 정리하고 검증할 수 있습니다. 이는 레이크에 저장된 데이터의 정확도와 안정성을 보장하는 데 도움이 됩니다.
  • 데이터 레이크는 분석 전에 별도의 데이터 클렌징 프로세스가 필요하여 복잡성이 추가되고 인사이트 추출이 지연될 수 있습니다.

데이터 레이크하우스의 장점

데이터 레이크하우스는 의사 결정 및 분석 개선을 위해 모든 데이터를 활용하길 원하는 조직에 매력적인 몇 가지 이점을 제공합니다. 주요 이점은 다음과 같습니다.

 

  • 통합 데이터 플랫폼: 데이터 레이크하우스는 데이터 레이크와 데이터 웨어하우스의 강점을 결합하여 형식(구조화, 반구조화, 비구조화)과 상관없이 모든 데이터를 저장 및 관리하는 단일 플랫폼을 제공합니다. 따라서 데이터 유형마다 별도의 시스템이 필요하지 않아 데이터 관리가 간소화되고 다양한 분석 프로젝트에서 바로 데이터를 이용할 수 있습니다.
  • 데이터 거버넌스 개선: 데이터 레이크하우스는 데이터 웨어하우스의 데이터 거버넌스 기능을 통합합니다. 따라서 데이터 소유권 정의, 액세스 제어 구현, 데이터 품질 표준 설정이 가능합니다. 이를 통해 데이터의 일관성, 정확성, 추적 가능성을 보장하고 분석이 까다로운 정리되지 않은 저품질 데이터의 리포지토리인 데이터 늪이 형성되는 것을 방지할 수 있습니다.
  • 유연성 및 확장성: 데이터 레이크하우스는 데이터 레이크의 유연성을 이어받습니다. 사전 정의된 구조에 대한 걱정 없이 모든 데이터를 ‘있는 그대로’ 저장할 수 있습니다. 또한 데이터 레이크의 확장성을 제공하여 특히 증가하는 데이터 볼륨에 따라 간편한 확장 또는 축소가 가능합니다.
  • 고급 분석을 위한 지원: 데이터 레이크하우스는 처리되지 않은 원시 상태의 데이터를 저장하여 다양한 분석 요구 사항을 위한 파운데이션을 제공합니다. 이러한 데이터는 기계 학습 모델의 교육과 데이터 마이닝, 인공 지능과 같은 다른 형태의 고급 분석을 수행하는 데 유용합니다.
  • 경제성: 데이터 레이크하우스는 기존의 데이터 웨어하우스보다 더 경제적입니다. 원시 데이터에 대해 비용이 적은 스토리지 솔루션을 활용하는 경우가 많으며 데이터 라이프 사이클 관리를 구현하여 불필요한 데이터를 제거하고 스토리지 요건을 줄일 수 있습니다.
  • 인사이트 확보 시간 단축: 모든 데이터를 접근 가능한 하나의 위치에 저장하여 데이터 검색이 간소화됩니다. 따라서 데이터 분석가와 데이터 과학자는 데이터 검색에 할애하는 시간을 줄이고 중요한 인사이트 확보에 집중할 수 있습니다.
  • 의사 결정 개선: 데이터 레이크하우스는 데이터에 대한 종합적인 보기를 제공하여 데이터 중심의 의사 결정을 지원합니다. 다양한 데이터 소스에서 얻은 인사이트를 결합하고 고객, 운영, 시장 동향을 더 깊이 있게 파악함으로써 더욱 현명한 비즈니스 결정을 내릴 수 있습니다.

데이터 레이크하우스의 요소

데이터 레이크하우스 아키텍처는 데이터 레이크의 자율성과 데이터 웨어하우스의 구조화된 기능이 결합된 하이브리드 데이터 관리 방식으로, 간략하게 다음과 같은 두 가지 주요 레이어로 구성됩니다.

 

레이크하우스 플랫폼:

  • 다이렉트 쿼리 액세스: 처리 레이어는 레이크에 저장된 데이터에 대한 다이렉트 쿼리를 제공하며, 데이터를 데이터 웨어하우스에 로드하거나 독점 형식으로 변환할 필요가 없습니다. 이러한 다이렉트 액세스로 BI 애플리케이션, AI 및 ML 기술에서 데이터를 더욱 효과적으로 활용할 수 있습니다.
  • 툴 독립성: 모든 처리 엔진이 최초 형식의 데이터를 읽을 수 있어 다양한 툴과 시스템이 준비된 데이터를 분석할 수 있습니다. 이러한 적응 가능성으로 처리 및 분석 성능과 경제성이 향상됩니다.

 

처리 레이어:

  • 다이렉트 쿼리 액세스: 처리 레이어는 레이크에 저장된 데이터에 대한 다이렉트 쿼리를 제공하며, 데이터를 데이터 웨어하우스에 로드하거나 독점 형식으로 변환할 필요가 없습니다. 이러한 다이렉트 액세스로 BI 애플리케이션, AI 및 ML 기술에서 데이터를 더욱 효과적으로 활용할 수 있습니다.
  • 툴 독립성: 모든 처리 엔진이 최초 형식의 데이터를 읽을 수 있어 다양한 툴과 시스템이 준비된 데이터를 분석할 수 있습니다. 이러한 적응 가능성으로 처리 및 분석 성능과 경제성이 향상됩니다.

 

주요 원칙: 데이터베이스 트랜잭션을 위한 ACID 컴플라이언스:

  • 원자성: 모든 트랜잭션이 완전히 종료되거나 전혀 처리되지 않도록 보장합니다. 프로세스가 중단될 경우 데이터 손실이나 손상을 방지할 수 있습니다.
  • 일관성: 정해진 기준에 따른 데이터의 유효성과 전체 데이터의 무결성을 유지하면서 예측 가능하고 일관된 트랜잭션 결과를 유지합니다.
  • 격리: 진행 중인 트랜잭션이 완료될 때까지 다른 트랜잭션의 영향을 받지 않도록 보장함으로써 여러 사용자가 중단 없이 동시에 읽기 및 쓰기를 수행할 수 있습니다.
  • 내구성: 트랜잭션에서 발생한 변경 사항의 일관된 저장을 지원하여 시스템에 문제가 발생하더라도 트랜잭션으로 인한 변경 사항이 그대로 유지되도록 보장합니다.

 

이러한 설계는 데이터 레이크의 경제성과 여러 시스템에서 분석 가능한 데이터를 사용할 수 있는 유연성을 균형 있게 제어합니다. 따라서 여러 사용자가 강력한 트랜잭션 규칙을 준수하면서 데이터를 동시에 보고 쓰는 것이 가능하므로 오늘날 데이터 관리 문제를 위한 유용하고 신뢰할 수 있는 솔루션이라고 할 수 있습니다.

AI와 데이터 레이크하우스

데이터 레이크하우스와 AI는 조직에서 상당한 가치를 얻을 수 있는 강력한 조합입니다. 방법은 다음과 같습니다.

 

데이터 레이크의 AI 이점:

  • 모든 데이터에 액세스: 데이터 레이크하우스는 모든 유형의 데이터(구조화, 반구조화, 비구조화)를 저장합니다. 따라서 AI 모델이 교육에 사용할 더욱 풍부하고 포괄적인 데이터 세트를 확보하고 성능 개선 및 인사이트 정확도 향상의 효과를 얻을 수 있습니다.
  • 데이터 품질 개선: 데이터 레이크하우스의 데이터 거버넌스 기능이 데이터의 일관성 및 정확성 보장에 도움이 됩니다. 저품질 데이터는 편향되거나 부정확한 결과로 이어질 수 있으므로 안정적인 AI 모델의 교육에서 중요한 사항입니다.
  • 유연한 실험: 데이터 레이크하우스는 원시 상태의 처리되지 않은 데이터의 저장을 지원합니다. 이를 통해 데이터 과학자들이 다양한 데이터 준비 기술과 주요 엔지니어링 접근 방식을 실험하면서 AI 모델 성능을 최적화할 수 있습니다.
  • 데이터 증가를 위한 확장성: AI 모델이 진화하고 교육 및 재교육에 더 많은 데이터가 필요한 상황에서 데이터 레이크하우스를 증가하는 데이터 요구 사항에 따라 손쉽게 확장할 수 있습니다.
  • 경제성: 데이터 레이크하우스는 기존의 데이터 웨어하우스와 비교하여 많은 양의 데이터를 경제적으로 저장하는 것이 가능합니다. 따라서 조직은 과도한 스토리지 비용에 대한 걱정 없이 다양한 AI 모델을 실험할 수 있습니다.

 

데이터 레이크하우스가 AI 프로젝트를 지원하는 방법:

  • 데이터 준비: 데이터 레이크하우스는 데이터 클렌징 및 전환 툴을 통합하고 AI 모델을 위한 데이터 준비 절차를 간소화할 수 있습니다.
  • 모델 교육 및 개발: 데이터 레이크하우스 환경 안에서 대규모 데이터 세트의 저장 및 액세스가 가능하여 효율적인 모델 교육 및 개발 주기에 도움이 됩니다.
  • 기계 학습 모델 관리: 데이터 레이크하우스는 다양한 버전의 기계 학습 모델 및 관련 데이터를 관리하는 중앙의 리포지토리 역할을 할 수 있습니다.
  • AI 모델 운영화: 교육이 완료되면 데이터 레이크하우스가 프로덕션에서 AI 모델을 배포 및 지원하기 위한 데이터 파이프라인을 제공할 수 있습니다.

 

전반적으로 데이터 레이크하우스는 데이터의 저장, 관리, 액세스를 위한 안전하고 확장 가능하며 적절한 거버넌스가 적용된 플랫폼을 제공함으로써 AI 라이프 사이클에서 중요한 역할을 합니다. 이를 통해 조직은 의사 결정의 개선과 혁신을 촉진하는 강력한 AI 모델을 구축, 교육, 배포할 수 있습니다.

HPE 데이터 레이크하우스 솔루션

데이터 레이크하우스는 데이터 레이크의 유연성과 데이터 웨어하우스의 데이터 거버넌스를 결합하여 데이터 관리를 혁신하고 있습니다. HPE Ezmeral Data Fabric은 여기서 더 나아가 온프레미스와 클라우드에 있는 기존의 데이터 인프라와 원활하게 통합되는 데이터 레이크하우스를 제공합니다.

 

  • 통합 및 간소화: HPE Ezmeral Data Fabric은 데이터 사일로를 허물고 모든 데이터(구조화, 반구조화, 비구조화)를 한곳에서 관리합니다. HPE Ezmeral Data Fabric은 내장된 툴을 통해 데이터 거버넌스를 간소화하고 안정적인 분석을 위한 데이터의 품질과 보안을 보장합니다.
  • AI 및 분석 지원: HPE Ezmeral Data Fabric은 고급 분석과 AI 이니셔티브를 위한 강력한 파운데이션을 제공합니다. 또한 기계 학습 모델 교육, 심층 데이터 탐색 수행, 데이터 중심의 혁신 촉진 등에서 모든 데이터를 간편하게 이용할 수 있도록 지원합니다.
  • 개방성 및 유연성: 오픈 소스 파운데이션으로 구축된 Ezmeral Data Fabric은 벤더 종속성을 방지하고 특정 데이터 요구 사항에 따른 유연성을 지원합니다. 온프레미스 솔루션, 클라우드 기반 데이터 레이크하우스 또는 하이브리드 접근 방식 등 어떤 환경이 필요하든 해당 환경에 적응합니다.
  • 성장을 위한 확장성: 데이터 볼륨이 증가하는 상황에서 데이터 스토리지 및 처리를 간편하게 확장할 수 있습니다. Ezmeral Data Fabric은 증가하는 데이터 세트를 손쉽게 처리하여 모든 정보를 분석하는 역량을 보장합니다.
  • 경제성: Ezmeral Data Fabric이 저비용의 스토리지 솔루션과 통합되어 데이터를 효율적으로 저장합니다. 이를 통해 데이터 접근성이나 품질의 손상 없이 비용을 최적화할 수 있습니다.

 

HPE Ezmeral Data Fabric이 고객에게 제공하는 이점:

  • 원시 데이터를 실행 가능한 인사이트로 전환
  • 자신 있게 데이터를 중심으로 결정
  • 고급 분석 및 AI를 통해 경쟁 우위 확보

 

HPE GreenLake 엣지 투 클라우드 플랫폼에서 이용 가능한 통합 데이터 경험으로 팀은 기존의 데이터 액세스 패턴을 유지하면서 데이터에 안전하게 연결할 수 있습니다. 또한 온프레미스에서 배포되는 Apache Spark에 최적화된 데이터 레이크하우스 플랫폼의 스케일업도 가능합니다. 데이터 과학자는 온프레미스, 엣지와 퍼블릭 클라우드 전체에서 데이터 및 애플리케이션을 위한 탄력적인 통합 분석 플랫폼을 활용하여 AI 및 ML 워크플로를 가속화할 수 있습니다.