データ重複排除

データ重複排除とは

データ重複排除はデータの保管に必要なスペースを最小化する技法であり、組織が重複データの問題を解決できるように設計されています。完全に同一のファイルの複数コピー、あるいは同一データを含む複数ファイルを保管しようとすると、重複排除機能により、データの余分なコピーがオリジナルデータを指すメタデータに置き換えられます。

データ重複排除の仕組み

重複排除の主な手法としては、インライン型とポストプロセス型の2つがあり、それぞれ異なるタイプのバックアップ環境を想定しています。

インライン型の重複排除はバックアップシステム内のデータを分析します。冗長性の特定と削除は、データがバックアップストレージに書き込まれる際に行われます。これにより必要なバックアップ容量は削減できますが、処理全体のボトルネックとなる可能性があるため、高性能のプライマリストレージが動作している間はデータ重複排除ツールをオフにすることが推奨されます。

ポストプロセス型の重複排除の場合は、データがストレージに書き込まれた後で、冗長データの削除が行われます。特定された重複データは削除されて、最初の反復データブロックへのポインターに置き換えられます。ポストプロセス型のアプローチの場合は、ユーザーが特定のワークロードを重複排除したり、最新のバックアップを迅速に復元したりすることが可能です。

ポストプロセス型はインライン型の重複排除よりも多くのストレージ容量を必要とします。

関連するHPEのソリューション、製品、サービス
関連するHPEのソリューション、製品、サービス

データ重複排除が必要な理由

データ重複排除を使用することで、IT部門は必要なストレージ領域に加えて、重複データに関連するコストも削減できます。一般的に大規模データセット内には多くの重複データが存在しており、ストレージコストを押し上げています。データ重複排除によってどの程度のスペースを節減できるかは、ボリューム上のデータセットやワークロードによって異なります。重複の多いデータセットの場合は、最大95%もの最適化率を達成可能です。

重複データを排除することで、リモートストレージとの間でデータを送受信する際の帯域幅の無駄も解消されます。さらにストレージリソースの効果的な管理により、バックアップ機能も以下のように向上します。

· 効率的なストレージ割り当て

· コスト削減

· ネットワーク最適化

· データセンターの効率化

· 迅速なリカバリと事業継続性

HPEとデータ重複排除

重複排除に対するアプローチは、個々のバックアップソリューションによって異なります。まずは自身のインフラストラクチャ要件および個々のバックアップ要件を把握することが大切です。HPEは、バックアップ重視およびターゲット重視のデータ重複排除アプローチの両方の利点をバランスよく備えた、IT環境全体にわたるハイブリッドソリューションにより、当て推量に頼らないデータの最適化を可能にします。HPE InfoSightの詳細、およびHPE InfoSightを導入してクラウド運用エクスペリエンスを実現し、業界最先端のインフラストラクチャ用AIを活用してエッジからクラウドまでアプリケーションとデータを管理することで、環境を常時稼働、常時高速、常時アジャイルの状態に保つ方法をぜひご確認ください。