데이터 레이크 데이터 레이크란?
데이터 레이크란 데이터를 수정 없이 원본 상태로 수집하는 리포지토리를 말합니다. 데이터 레이크는 데이터 웨어하우스나 사일로와 달리 개체 스토리지가 있는 플랫 아키텍처를 사용하여 파일의 메타데이터를 유지합니다. 대규모 데이터 관리 플랫폼의 일부로 활용할 때 유용하며, 기존의 데이터 및 툴과 잘 통합되어 더욱 강력한 분석을 지원합니다. 보안, 확장성, 유연성을 유지하면서 인사이트와 동향을 확보하는 것에 목적을 둡니다.
- 데이터 레이크 설명
- 조직에서 데이터 레이크를 선택해야 하는 이유
- 데이터 레이크의 이점
- 데이터 레이크 대 데이터 웨어하우스의 비교
- 데이터 레이크 플랫폼이란?
- 오늘날 데이터 레이크가 사용되는 방식
- HPE와 데이터 레이크
데이터 레이크 설명
데이터 레이크는 중앙의 위치(일반적으로 클라우드)에 기본적인 원시 형태로 많은 양의 데이터를 보관하는 용도로 사용됩니다. 경제적인 개체 스토리지, 개방형 형식, 클라우드 확장성 등을 활용하여 다양한 애플리케이션에서 데이터 레이크에 저장된 풍부한 데이터를 이용할 수 있습니다.
- 구조화되지 않은 데이터(일반적으로 빅 데이터)와 반구조화된 데이터를 포함한 모든 유형의 질적 데이터 저장이 가능합니다. 오늘날 기계 학습 및 고급 분석 사용 사례에서는 이러한 기능이 매우 중요합니다.
- 네트워킹 공간에서는 인프라와 엔드포인트 원격 분석이 기준과 이상 징후를 식별하기 위해 AI/ML 모델 및 알고리즘을 공급하는 설명자 또는 분류자로 사용된다고 할 수 있습니다.
- 고객의 경우 인프라와 엔드포인트 클라이언트가 데이터 레이크에 데이터를 공급하고, 네트워킹 벤더는 이를 유지관리하면서 IT에서 네트워크 운영 효율을 높이는 데 도움이 되는 AI 기반 툴을 제공합니다.
조직에서 데이터 레이크를 선택해야 하는 이유
엔터프라이즈는 데이터 레이크를 통해 원시 데이터를 SQL 기반 분석, 데이터 과학, 기계 학습에 적합한 구조화된 데이터로 변환할 수 있으면서도 대기 시간은 더욱 짧습니다. 스트리밍 이미지, 동영상, 바이너리 파일 등을 포함하여 모든 유형의 데이터를 더 쉽게 수집하고 무기한 보존할 수 있습니다. 데이터 레이크는 여러 파일 형식에 반응하고 새로운 데이터를 위한 ‘안전한 항구’를 제공하기 때문에 더 쉽게 최신 상태를 유지할 수 있습니다.
데이터 레이크를 사용하면 이러한 유연성을 기반으로 기량, 로케일, 언어가 모두 다른 사용자가 필요한 작업을 수행할 수 있습니다. 데이터 레이크가 효과적으로 대체한 데이터 웨어하우스 및 사일로와는 대조적으로, 빅 데이터 및 기계 학습 애플리케이션에 제공하는 유연성은 점점 더 명확해지고 있습니다.
데이터 레이크의 이점
데이터 레이크 고객이 얻는 이점은 다음과 같습니다.
- 사이트의 네트워크 성능에 대한 동적 기준(SLE를 수동으로 설정할 필요 없음)
- 자체 데이터를 바탕으로 문제가 발생한 유사 사이트를 표시하는 비교
- 유사한 고객 사이트의 행동에 대한 성능 데이터를 바탕으로 한 최적화 팁
- 새로운 기술, 인프라, 엔드포인트가 등장하는 상황에서 지속적으로 AI/ML 재교육
데이터 레이크 대 데이터 웨어하우스의 비교
데이터 레이크와 웨어하우스 모두 대량의 데이터를 저장하는 데 사용할 수 있지만, 데이터에 액세스하거나 사용할 수 있는 방법에는 몇 가지 주요 차이점이 있습니다. 데이터 레이크는 문자 그대로 모든 파일 유형의 원시 데이터를 저장합니다. 그와 달리 데이터 웨어하우스는 특정 목적에 맞게 이미 구조화되고 필터링된 데이터를 저장합니다.
데이터 레이크는 오픈 포맷으로 특정 파일 형식이 필요하지 않으며 사용자는 독점 공급업체 고정의 영향을 받지 않습니다. 사일로나 웨어하우스와 다른 데이터 레이크의 한 가지 이점은 더 구조화된 환경에 비해 모든 유형의 데이터나 파일을 저장할 수 있다는 것입니다. 다른 하나는 데이터 레이크의 설정 의도를 그때 정의할 필요가 없는 반면 데이터 웨어하우스는 이미 특정 의도로 처리된 필터링된 데이터를 위한 리포지토리로 생성됩니다.
중앙 집중화된 데이터 레이크는 데이터 중복, 중복 보안 정책 및 여러 사용자가 협업 시 겪는 어려움과 같은 문제를 제거하기 때문에 사일로 및 웨어하우스에 비해 원활하게 사용할 수 있습니다. 다운스트림 사용자에게는 데이터 레이크가 여러 데이터 소스를 찾거나 보간할 수 있는 단일 장소로 표시됩니다.
또한 데이터 레이크는 확장성과 개체 스토리지를 활용할 수 있기 때문에 내구성과 경제성이 매우 우수합니다. 또한 오늘날 많은 기업에서 구조화되지 않은 데이터를 이용한 고급 분석과 기계 학습이 점차 중요해지고 있기 때문에, 원시 데이터를 구조화된 형식, 반구조화된 형식 및 구조화되지 않은 형식으로 “수집”할 수 있는 역량을 통해 데이터 레이크는 데이터 스토리지에서 점점 더 보편화되고 있습니다.
데이터 레이크 플랫폼이란?
거의 모든 주요 클라우드 서비스 공급자가 최신 데이터 레이크 솔루션을 제공합니다. 온프레미스 데이터 센터에서는 HDFS(Hadoop File System)를 거의 표준으로 계속해서 사용하고 있습니다. 그러나 엔터프라이즈가 클라우드 환경을 지속적으로 도입함에 따라 데이터 스토리지를 클라우드 기반 데이터 레이크 환경으로 이동할 수 있는 개선된 기회를 활용하려는 데이터 과학자, 엔지니어, IT 전문가에게 다양한 옵션을 제공합니다.
데이터 레이크는 JSON과 같은 스트리밍 데이터로 작업할 때 특히 유용합니다. 일반적인 비즈니스 사용 사례 3가지는 비즈니스 분석 또는 지능형, 기계 학습에 초점을 맞춘 데이터 과학, 실시간 데이터에 의존하는 고성능 애플리케이션인 데이터 서비스입니다.
AWS(Amazon Web Services), Microsoft Azure, Google BigQuery 등 모든 주요 클라우드 서비스 공급자는 클라우드 기반 데이터 레이크에 필요한 스토리지와 서비스를 제공합니다. 단순한 백업에서 완전한 통합에 이르기까지 조직이 필요로 하는 통합 수준에 따라 선택할 수 있는 다양한 옵션이 있습니다.
오늘날 데이터 레이크가 사용되는 방식
20~30년 전과 달리 대부분의 비즈니스 의사 결정은 더 이상 웨어하우스에 저장된 트랜잭션 데이터를 기반으로 하지 않습니다. 구조화된 데이터 웨어하우스에서 현대의 유동적인 데이터 레이크 구조로의 변화는 현대적인 빅 데이터 및 데이터 과학 애플리케이션의 요구와 기능의 변화에 따른 것입니다.
거의 매일 새로운 애플리케이션이 계속해서 등장하고 있는 가운데 최신 데이터 레이크의 일반적인 애플리케이션 중 일부는 새로운 데이터의 빠른 수집과 분석에 초점을 맞추고 있습니다. 예를 들어, 데이터 레이크는 CRM 플랫폼의 고객 데이터를 소셜 미디어 분석 또는 고객의 구매 이력을 통합할 수 있는 마케팅 플랫폼과 결합할 수 있습니다. 기업은 이를 결합하여 잠재적인 수익 영역이나 고객 이탈의 원인을 더 잘 이해할 수 있습니다.
마찬가지로 연구 개발 팀은 데이터 레이크를 통해 가설을 테스트하고 결과를 평가할 수 있습니다. 데이터 레이크는 데이터를 실시간으로 수집할 수 있는 방법이 점점 더 많아짐에 따라 스토리지 또는 분석 방법을 더 빠르고 직관적이며 더 많은 엔지니어가 액세스할 수 있도록 지원합니다.
HPE와 데이터 레이크
빅 데이터는 오늘날 기업이 가장 큰 과제를 해결하는 방법입니다. Hadoop이 구조화되지 않은 데이터의 가치를 정제하는 데 성공한 가운데 기업은 이를 단순화할 수 있는 새롭고 더 나은 방법을 찾고 있습니다.
오늘날의 기업은 시스템, 데이터 과학자, IT 인력에 이르기까지 온프레미스 Hadoop 기반 데이터 관리를 구현하고 운영하며 유지하기 위해 분석에 막대한 비용을 지출하고 있습니다. 모든 데이터 환경과 마찬가지로 필요한 용량도 기하급수적으로 변할 수 있습니다.
HPE GreenLake는 Hadoop 경험을 근본적으로 단순화하여 복잡성과 비용을 없애고 대신 데이터가 제공하는 인사이트를 얻는 데 집중할 수 있는 확장 가능한 진정한 클라우드 기반 솔루션을 조직에 제공합니다. HPE GreenLake는 하드웨어, 소프트웨어 및 HPE 서비스를 갖춘 완벽한 엔드 투 엔드 솔루션을 제공합니다.
HPE GreenLake는 데이터의 잠재력을 극대화하여 온프레미스 환경에 이미 포함되어 있는 HDFS 데이터 레이크를 최대한 활용하는 동시에 클라우드에 제공되는 장점과 인사이트를 활용합니다.