데이터 파이프라인

데이터 파이프라인이란?

데이터 파이프라인은 데이터를 소스에서 데이터 레이크 또는 데이터 웨어하우스와 같은 종착지로 옮기는 데 사용합니다. 

데이터 파이프라인의 구성요소

데이터 파이프라인은 데이터 소스, 데이터 처리 또는 데이터 전환 단계, 데이터 종착지 또는 데이터 스토리지 위치의 3개 단계로 구성됩니다. 데이터 소스는 데이터가 생성되는 장소입니다. 일반적인 데이터 소스에는 데이터베이스, CRM 시스템, IoT 센서 등이 포함됩니다. 데이터 처리 또는 데이터 전환 단계에는 이동, 번역, 정렬, 통합, 중복 제거, 검증, 분석 등 데이터를 변경하는 모든 운영이 포함됩니다. 데이터 파이프라인의 마지막 단계인 데이터 스토리지는 사용자가 액세스할 수 있도록 전환된 데이터가 저장되는 곳입니다. 일반적인 데이터 저장소 위치로는 데이터 웨어하우스, 데이터 레이크, 데이터 마트 등이 있습니다.

ETL 파이프라인은 데이터 파이프라인의 하위 범주로 간주됩니다. ETL 파이프라인과 데이터 파이프라인의 중요한 차이는 ETL 파이프라인이 데이터 파이프라인보다 더 다양한 방식으로 데이터를 전환할 수 있다는 것입니다. 예를 들어 ETL 파이프라인은 특정 메트릭 데이터를 결합하여 더 간편하게 분석할 수 있습니다. 또한 ETL 파이프라인은 네트워크 트래픽이 실시간보다 느린 경우 정해진 일정에 따라 데이터를 전송이 가능하여 데이터를 지속적이 아닌 일정한 주기로 전송할 수 있습니다.

데이터 파이프라인 유형

실시간 파이프라인

실시간 파이프라인은 분석 및 날씨 예보와 같이 스트리밍 서비스를 통해 데이터를 직접 처리하는 기업 또는 금융 인사이트 산업에서 주로 사용됩니다. 이러한 시스템은 아키텍처를 통해 즉시 데이터를 처리하고 수백만 개의 이벤트를 적절한 규모로 처리할 수 있으며 매우 안정적인 인사이트를 제공합니다.

오픈 소스 파이프라인

오픈 소스 파이프라인은 소기업과 일반 대중이 데이터를 이동, 처리, 저장하는 데 사용하는 예산 친화적 시스템입니다. 이러한 유형의 파이프라인 지원에 사용하는 툴은 실시간 또는 클라우드 기반 데이터 파이프라인 시스템을 지원하는 툴보다 저렴합니다. 이러한 시스템은 대중에게 공개되어 모든 사용 사례에서 목적에 따른 사용자 정의가 필요합니다.

클라우드 파이프라인

클라우드 파이프라인은 클라우드 기반 데이터의 활용, 전환, 분석에 사용됩니다. 현장의 스토리지 인프라가 필요하지 않아 조직이 클라우드 기반 구조에서 데이터를 수집 및 분석할 수 있습니다. 클라우드 네이티브 파이프라인은 서비스의 특성으로 인해 광범위한 보안 서비스가 포함되는 경우가 많습니다.

일괄 처리 파이프라인

일괄 처리 파이프라인은 데이터 파이프라인 스토리지 시스템 중에서 인기가 많습니다. 주로 많은 양의 데이터를 일관되게 이동 및 저장하는 데 사용하며, 조직은 일괄 처리 파이프라인 시스템을 통해 이동하는 데이터의 양으로 인해 실시간 시스템보다 느린 속도로 저장 및 분석할 데이터를 해석 및 이동합니다.

스트리밍 파이프라인

스트리밍 파이프라인은 일괄 처리 파이프라인과 함께 가장 일반적인 데이터 파이프라인 형태입니다. 사용자는 스트리밍 파이프라인을 통해 다양한 데이터 소스의 구조화된 데이터와 구조화되지 않은 데이터를 처리할 수 있습니다.

데이터 파이프라인 아키텍처란?

데이터 파이프라인 아키텍처는 데이터 소스, 데이터 처리 시스템, 분석 툴 및 애플리케이션을 연결하는 시스템을 지칭합니다.

데이터 파이프라인 아키텍처는 데이터 과학자들이 데이터와 표적 행동에서 인사이트를 확보하고, 고객 여정의 효율성을 향상하며, 사용자 경험을 개선할 수 있도록 관련된 모든 데이터의 수집을 보장합니다. 데이터 파이프라인은 원시 데이터를 적절한 스토리지 사이트로 라우팅하고 실행 가능한 인사이트로 전환합니다. 데이터 아키텍처는 동적으로 계층화되며, 수집에서부터 지속적인 감시까지 이어집니다.

기본적으로 원시 데이터에는 인사이트를 확보하기에 너무 많은 데이터 포인트가 포합됩니다. 데이터 파이프라인 아키텍처는 인사이트 확보를 위해 데이터를 캡처, 구조화, 이동하고, 깊이 있게 이해하고 활용하기 위한 분석을 목적으로 구축된 시스템을 사용합니다. 주로 자동화, 소프트웨어, 데이터 스토리지 솔루션으로 활용됩니다.

스토리지 위치는 수집한 데이터의 형식에 따라 결정됩니다. 데이터를 정확한 스토리지 위치로 보내는 것은 데이터 파이프라인 아키텍처에서 중요한 단계이며, 옵션으로 데이터 웨어하우스와 같은 구조화된 스토리지 시스템에서 마스터링된 데이터를 저장하거나 데이터 레이크에서 느슨하게 구조화된 데이터를 저장할 수 있습니다. 데이터 애널리스트는 데이터 레이크의 느슨하게 구조화된 데이터에서 데이터 인사이트를 수집하거나 중앙의 스토리지 위치에서 마스터링된 데이터를 분석할 수 있습니다. 스토리지 환경에 적절하게 배치되지 않은 경우 아키텍처에서 실질적인 감독이 불가능하여 향후 애플리케이션이 더욱 제한됩니다. 

HPE와 데이터 파이프라인

HPE Ezmeral은 데이터 우선 고도화를 촉진하도록 설계된 하이브리드 분석 및 데이터 과학 플랫폼으로, 엔터프라이즈가 위치와 상관없이 데이터의 가치를 활용할 수 있습니다. HPE Ezmeral은 고객이 HPE GreenLake 분석 서비스를 통해 엣지 투 클라우드에서 모든 데이터를 통합, 고도화, 분석하도록 지원합니다.

HPE Ezmeral을 통해 틈새 솔루션 및 클라우드 기반 솔루션으로는 불가능한 선택권, 효율성, 유연성을 활용하여 데이터의 가치를 활용하고 혁신을 가속할 수 있습니다. 방식은 다음과 같습니다.

통합 소프트웨어 플랫폼 제공: 100% 오픈 소스를 바탕으로 구축되고 온프레미스 또는 하이브리드 및 멀티 클라우드 환경의 모든 인프라에서 실행하는 클라우드 네이티브 및 비클라우드 네이티브(레거시) 애플리케이션용으로 설계되었습니다.

데이터 통합 및 애플리케이션 고도화: 고성능 분석에 최적화된 업계 최초의 통합 데이터 패브릭을 사용합니다. 파일, 개체, 이벤트 스트림, NoSQL 데이터베이스를 하나의 로컬 인프라 및 파일 시스템에 통합하여 동기화된 데이터에 대한 글로벌 액세스를 제공함으로써 인사이트 확보 시간이 단축됩니다.

ML 모델 운영화 문제 처리: 엔터프라이즈 규모에서 워크로드를 가속하는 클라우드와 같은 경험과 함께 DevOps와 같은 속도와 민첩성을 제공하는 솔루션을 사용합니다.

모든 팀에 일관된 경험 제공: 광범위한 분석 및 ML 툴을 사용하는 단일 플랫폼이 적용됩니다. 내장된 자동화 및 클라우드 네이티브 경험으로 사용자와 툴을 적절한 데이터, 컴퓨팅, 엔진, 스토리지를 연결하여 팀이 데이터의 가치 활용에 집중하도록 지원하는 절차가 간소화됩니다.

자유와 유연성 확보: 오픈 소스 툴과 프레임워크가 통합 하이브리드 데이터 레이크하우스로 통합됩니다. 통합 App Store 또는 HPE Ezmeral Marketplace를 통해 신뢰하는 ISV 파트너가 검증한 풀 스택 솔루션을 기반으로 간소화된 맞춤형 엔진 및 환경을 신속하게 구축할 수 있습니다.