データレイク データレイクとは
データレイクとは、データが元の形式で変更なしに取り込まれるリポジトリです。データウェアハウスやサイロと異なり、データレイクではファイルのメタデータを保持するために、オブジェクトストレージのフラットアーキテクチャーを採用しています。これが最も効果を発揮するのは、より大きなデータ管理プラットフォームの一部として、既存のデータやツールと緊密に統合されることで、より強力な分析を可能にする場合です。その目標は、セキュリティ、スケーラビリティ、柔軟性を維持しながら、有益な情報やトレンドを発見することにあります。
- データレイクの説明
- 組織がデータレイクを選択する理由
- データレイクのメリット
- データレイクとデータウェアハウスの比較
- データレイクプラットフォームの内容
- 現時点のデータレイクの使用方法
- HPEとデータレイク
データレイクの説明
データレイクは、大量のデータを加工前のネイティブ形式で一元的に保持するために用いられ、通常はクラウド上に存在します。低コストのオブジェクトストレージ、オープンフォーマット、クラウドの拡張性を利用することで、データレイクに保存されている大量のデータはさまざまなアプリケーションから活用できます。
- 非構造化データ (ビッグデータと呼ばれるもの) や半構造化データを含む、あらゆる種類の定性的データが保存可能です。このことは、今日の機械学習や高度な分析のユースケースにとって重要です。
- ネットワーキングの世界では、インフラストラクチャやエンドポイントのテレメトリが、ベースラインと異常を特定するためのAI/MLモデルやアルゴリズムに入力される記述子または分類子として用いられています。
- 顧客のインフラストラクチャやエンドポイントクライアントがデータレイクにデータを供給し、ネットワーキングベンダーはデータを保持することで、IT部門によるネットワーク運用を効率化するためのAIベースのツールを提供できます。
組織がデータレイクを選択する理由
データレイクにより、エンタープライズはSQLベースの分析、データサイエンス、機械学習向けにrawデータを構造化データに低レイテンシで変換できます。あらゆるタイプのデータを簡単に収集し、そのまま維持することが可能です。データには、ストリーミング画像、ビデオ、バイナリファイルなどが含まれます。データレイクは複数のファイルタイプに対応し、新しいデータにとっては「避難港」であるため、簡単に最新の状態を維持できるようになっています。
このような柔軟性があるため、データレイクでは、スキルセット、ロケール、使用言語が異なるユーザーが必要なタスクを実行できます。データレイクで置き換えられる対象のデータウェアハウスやサイロと比較すると、明らかにビッグデータおよび機械学習アプリケーションで利用できる柔軟性があります。
データレイクのメリット
データレイクはお客様にとって次のようなメリットがあります。
- 手動でSLEを設定しなくてもサイトのネットワークパフォーマンスの動的ベースラインを入手可能。
- 自身のデータに基づく比較により、類似のサイトで問題が発生している個所をハイライト。
- 類似のカスタマーサイトの動作に関するパフォーマンスデータに基づく最適化のヒント。
- 新しいテクノロジー、インフラストラクチャ、エンドポイントの出現に伴うAI/MLの継続的再トレーニング。
データレイクとデータウェアハウスの比較
データレイクとデータウェアハウスは、共に大容量データの格納に使用できますが、データへのアクセス方法や使用方法には複数の大きな違いがあります。データレイクは、文字どおりあらゆるファイルタイプのrawデータを格納します。一方、データウェアハウスには特定の目的用に、構造化され選別されたデータを格納します。
それぞれのオープンフォーマットがあるため、データレイクでは特定のファイルタイプは必要なく、ユーザーが独自仕様のベンダーロックインに陥ることがありません。サイロやデータウェアハウスに勝るデータレイクの1つのメリットは、構造化環境の場合と比べてあらゆるタイプのデータやファイルを格納できることです。別のメリットは、データレイクが定義された当時には想定していなかったもので、データウェアハウスが特定の目的で処理するためにフィルタリングされたデータ用のリポジトリとして作成されたことにあります。
一元化されたデータレイクは、サイロやデータウェアハウスより優れています。データの重複、冗長なセキュリティポリシー、マルチユーザー連携が難しいなどの問題を解決できるためです。下流のユーザーには、データレイクはデータの複数ソースを探し、挿入するための単一の場所として表示されます。
比較すると、データレイクは耐久性に優れ、経済的です。スケーラビリティとオブジェクトストレージを活用できる機能のためです。さらに非構造化データの高度な分析および機械学習に対する優先度が今日多くの企業で高まっているため、構造化、半構造化、非構造化形式でrawデータを「取り込む」機能により、データレイクはデータストレージの選択肢として普及しつつあります。
データレイクプラットフォームの内容
事実上すべての主要なクラウドサービスプロバイダーでは、最新のデータレイクソリューションを提供しています。オンプレミスのデータセンターでは、Hadoop File System (HDFS) をほぼ標準として継続使用しています。エンタープライズはクラウド環境の採用を続行していますが、データストレージをクラウドベースのデータレイク環境に移行することで活用の場を拡げようとしているデータサイエンティスト、エンジニア、ITプロフェッショナルにとって、多くのオプションが利用できます。
データレイクは、JSONのようなストリーミングデータで作業するとき、特に便利です。3つの典型的なビジネス使用事例は、ビジネスアナリティクス/インテリジェンス、機械学習に注力するデータサイエンス、データ提供で、リアルタイムデータを扱う高パフォーマンスアプリケーションに対するものです。
Amazon Web Services (AWS) からMicrosoft Azure、Google BigQueryといった主要なすべてのクラウドサービスプロバイダーは、クラウドベースのデータレイクに必要なストレージとサービスを提供します。シンプルなバックアップから完全な統合まで、組織が求める統合レベルが何であれ、すべてのオプションが揃っています。
現時点のデータレイクの使用方法
ほんの20~30年前と比較して、ウェアハウスに格納されたトランザクションデータをベースにしたビジネス決定はかなり少なくなりました。構造化データウェアハウスから流動的な最新データレイク構造への大転換は、最新のビッグデータおよびデータサイエンスアプリケーションのニーズや機能の変化に対応しています。
新しいアプリケーションが毎日のようにリリースされていますが、最新データレイク向けの典型的なアプリケーションでは、新しいデータの高速取得と分析に注力しています。たとえば、データレイクはCRMプラットフォームの顧客データをソーシャルメディア分析あるいは顧客の購買履歴を統合できるマーケティングプラットフォームと結合できます。これらが統合されると、企業は利益が見込める潜在的領域や顧客離反の原因を効果的に把握できるようになります。
同様に、データレイクでは、研究開発チームが仮説を検証し結果を評価できます。リアルタイムでデータを収集する方法がますます増えているため、データレイクはストレージや分析手法を高速化し、さらに直感的に、多くのエンジニアがアクセスできるようにします。
HPEとデータレイク
ビッグデータは、現在各企業が自らの最大の課題として取り組んでいます。非構造化データからの価値抽出にはHadoopが成功を収めてきましたが、各組織ではこれを実行する方法を簡素化する新しい優れた方法を求めています。
現在の企業は分析に多額の支出を費やしています。システムからデータサイエンティストやITワークフォースまで、オンプレミスのHadoopベースのデータ管理を実装、運用、保守するためです。あらゆるデータ環境の場合と同様に、容量へのニーズが指数関数的に変わることがあります。
HPE GreenLakeはHadoopエクスペリエンスを基本的に簡素化できる、スケーラブルのクラウドベースのソリューションを各組織に提供し、複雑さと費用を取り除き、データが提供する有益な情報の取得に注力します。HPE GreenLakeではハードウェア、ソフトウェア、HPEのサービスと共に完全なエンドツーエンドソリューションを提供します。
保有するデータの可能性を最大化することにより、HPE GreenLakeはオンプレミス環境に含まれるHDFSデータレイクを完全に活用し、一方クラウドで提供されるメリットやインサイトを活用します。