Delta Lake Was bedeutet Delta Lake?
Ein Delta Lake ist eine Open-Source-Speicherschicht, die oberhalb eines bestehenden Data Lake liegt und dessen Zuverlässigkeit, Sicherheit und Leistung verbessert. Delta Lakes unterstützen ACID-Transaktionen, skalierbare Metadaten, einheitliches Streaming und die Batch-Datenverarbeitung.
- Was macht ein Delta Lake?
- Wie funktioniert ein Delta Lake?
- Was sind die Funktionen und Vorteile von Delta Lakes?
- Delta Lakes im Vergleich zu Data Lakes und Warehouses
- HPE und Delta Lake
Was macht ein Delta Lake?
Heutige Unternehmen erzeugen riesige Datenmengen, die eine wertvolle Quelle für Business Intelligence und nützliche Einblicke sein können, wenn sie richtig genutzt werden. Ein Delta Lake ermöglicht es Unternehmen, in Echtzeit auf neue Daten zuzugreifen und diese zu analysieren.
Wie funktioniert ein Delta Lake?
Ein Delta Lake erweitert eine offene Speicherumgebung für strukturierte, halbstrukturierte und unstrukturierte Daten um eine Ebene für intelligentes Datenmanagement und Governance und unterstützt sowohl Streaming- als auch Batch-Operationen aus einer einzigen Quelle.
Was sind die Funktionen und Vorteile von Delta Lakes?
- Offenes Format: Delta Lakes verwenden das Open-Source-Format Apache Parquet und sind vollständig kompatibel mit der Apache Spark Unified Analytics Engine für leistungsstarke, flexible Operationen.
- ACID-Transaktionen: Ein Delta Lake ermöglicht ACID-Transaktionen (Atomarität, Konsistenz, Isolation, Dauerhaftigkeit) für Big Data-Workloads. Er erfasst alle an den Daten vorgenommenen Änderungen in einem serialisierten Transaktionsprotokoll, wodurch die Integrität und Zuverlässigkeit der Daten geschützt wird und vollständige, genaue Prüfprotokolle erstellt werden.
- Zeitreise: Das Transaktionsprotokoll des Delta Lake enthält eine Gesamtaufzeichnung aller an den Daten vorgenommenen Änderungen, die es ermöglicht, den genauen Zustand eines Datensatzes zu jedem beliebigen Zeitpunkt wiederherzustellen. Die Datenversionierung macht Datenanalysen und Experimente vollständig reproduzierbar.
- Durchsetzung von Schemata: Ein Delta Lake schützt die Qualität und Konsistenz Ihrer Daten durch eine rigorose Durchsetzung von Schemata, die sicherstellt, dass die Datentypen korrekt und vollständig sind und die verhindert, dass fehlerhafte Daten wichtige Prozesse beeinträchtigen.
- Zusammenführen, Aktualisieren, Löschen: Ein Delta Lake unterstützt DML-Operationen (Data Manipulation Language), einschließlich der Befehle zum Zusammenführen, Aktualisieren udn Löschen für Compliance und komplexe Anwendungsfälle wie Streaming-Upserts, das Erfassen von Änderungsdaten, SCD-Operationen (Slow Changing Dimension) und mehr.
Delta Lakes im Vergleich zu Data Lakes und Warehouses
Ein Delta Lake kombiniert die Vorteile von Data Lakes und Data Warehouses, um ein skalierbares, kostengünstiges Data Lakehouse zu schaffen. Erfahren Sie mehr über Delta Lakes, Data Lakes, Data Lakehouses und Data Warehouses.
Delta Lake
Ein Delta Lake, eine Weiterentwicklung der Datenspeicherung, bewahrt die Integrität Ihrer Originaldaten, ohne die Leistung und Flexibilität zu beeinträchtigen, die für Echtzeitanalysen, künstliche Intelligenz (KI) und Anwendungen im Bereich des maschinellen Lernens (ML) erforderlich sind.
Data Lake
Ein Data Lake ist eine massive Ansammlung unformatierter Daten in vielfältigen Formaten. Die schiere Menge und Vielfalt der Informationen in einem Data Lake kann die Analyse schwerfällig machen, und ohne Auditing oder Governance kann die Qualität und Konsistenz der Daten unzuverlässig sein.
Data Lakehouse
Ein Data Lakehouse kombiniert die Flexibilität und Skalierbarkeit eines Data Lakes mit der Struktur und den Managementfunktionen eines Data Warehouse auf einer einfachen, offenen Plattform.
Data Warehouse
Ein Data Warehouse sammelt Informationen aus verschiedenen Quellen und formatiert und organisiert sie dann in einer großen, konsolidierten Menge strukturierter Daten, die für Analysen und Berichte optimiert sind. Proprietäre Software und die fehlende Möglichkeit, unstrukturierte Daten zu speichern, können ihren Nutzen einschränken.
HPE und Delta Lake
- Die HPE GreenLake Edge-to-Cloud-Plattform basiert auf der HPE Ezmeral-Software und ist für Kubernetes-basierte Apache Spark-Analysen mit Delta Lake-Integration optimiert.
- HPE Ezmeral und Apache Spark 3.0 mit Delta Lake liefern zuverlässige und konsistente Daten für Geschäftsanalysen und Machine Learning-Anwendungen. Die Kubernetes-basierte Cluster-Orchestrierung ermöglicht eine dynamische Skalierung für datenintensive Workloads.
- HPE Ezmeral Runtime bietet branchenführendes Cluster- und Anwendungsmanagement für physische und Cloud-basierte Infrastrukturen.
- HPE Ezmeral Data Fabric verbessert das Datenmanagement und den pro Mandant bereitgestellten Speicher.