Delta Lake
¿Qué es Delta Lake?

Un Delta Lake es una capa de almacenamiento de código abierto que se ejecuta sobre lago de datos existente y mejora su fiabilidad, seguridad y rendimiento. Delta Lakes admite transacciones ACID, metadatos escalables, streaming unificado y procesamiento de datos en lotes.

Especialista de TI con barba instalando servidores en un centro de datos.
  • ¿Qué hace Delta Lake?
  • ¿Cómo funciona Delta Lake?
  • ¿Cuáles son las características y las ventajas de Delta Lake?
  • Diferencias entre Delta Lakes, lagos de datos y almacenes de datos
  • HPE y Delta Lake
¿Qué hace Delta Lake?

¿Qué hace Delta Lake?

Las empresas actuales generan cantidades masivas de datos, que pueden ser fuentes valiosas de conocimientos e inteligencia empresarial si se pueden utilizar de manera adecuada. Delta Lake habilita a las organizaciones para acceder y analizar nuevos datos en tiempo real.

¿Cómo funciona Delta Lake?

¿Cómo funciona Delta Lake?

Delta Lake añade una capa de gobernanza y gestión de datos inteligentes a un entorno de almacenamiento abierto para datos estructurados, semiestructurados y desestructurados, que admite tanto operaciones de streaming como en lotes de una única fuente.

¿Cuáles son las características y las ventajas de Delta Lake?

¿Cuáles son las características y las ventajas de Delta Lake?

  • Formato abierto: Delta Lake utiliza el formato Apache Parquet de código abierto y es totalmente compatible con el motor de análisis unificados Apache Spark para unas operaciones potentes y flexibles.
  • Transacciones ACID: Delta Lake habilita transacciones ACID (atomicidad, coherencia, aislamiento y durabilidad) para cargas de trabajo de Big Data. Capta todos los cambios realizados en los datos en un registro de transacciones serializado, lo cual protege la integridad y la fiabilidad de los datos y proporciona pistas de auditoría precisas y completas.
  • Viaje en el tiempo: el registro de transacciones de Delta Lake proporciona un registro maestro de cada cambio realizado en los datos, lo cual hace posible recrear el estado exacto de un conjunto de datos en cualquier momento puntual. El versionado de los datos facilita la reproducibilidad completa de los experimentos y análisis de datos.
  • Aplicación de esquemas: Delta Lake protege la calidad y la coherencia de los datos con una sólida aplicación de esquemas, para garantizar que los tipos de datos son correctos y completos, y evitar que los datos corruptos afecten de manera negativa a procesos cruciales.
  • Fusionar, actualizar, eliminar: Delta Lake admite operaciones de lenguaje de manipulación de datos (DML), incluyendo comandos de fusión, actualización y eliminación para casos de uso de cumplimiento y complejos, como actualizaciones/inserciones de streaming, operaciones de captura de datos modificados, de dimensiones lentamente cambiantes y más.
Diferencias entre Delta Lakes, lagos de datos y almacenes de datos

Diferencias entre Delta Lakes, lagos de datos y almacenes de datos

Un Delta Lake combina las ventajas de los lagos y los almacenes de datos para crear un data lake house escalable y rentable. Descubre las diferencias entre Delta Lakes, lagos de datos, data lake houses y almacenes de datos.

Delta Lake

Un Delta Lake, una evolución del almacenamiento de datos,  preserva la integridad de tus datos originales sin sacrificar el rendimiento y la agilidad necesarios para aplicaciones de análisis en tiempo real, inteligencia artificial (IA) y aprendizaje automático (ML).

Lago de datos

Un lago de datos es una acumulación masiva de datos sin procesar en múltiples formatos. El inmenso volumen y la enorme variedad de información en un lago de datos pueden complicar los análisis y, sin auditorías ni gobernanza, la calidad y la coherencia de los datos pueden ser poco fiables.

Data lake house

Un data lake house combina la flexibilidad y escalabilidad de un lago de datos con las características de estructura y gestión de un almacén de datos en una plataforma sencilla y abierta. 

Almacén de datos

Un almacén de datos recopila información de múltiples fuentes, la reformatea y organiza en un volumen grande y consolidado de datos estructurados, optimizado para análisis y entrega de informes. El software exclusivo y la incapacidad para almacenar datos desestructurados puede limitar su utilidad.

HPE y Delta Lake

HPE y Delta Lake

  • La plataforma edge-to-cloud HPE GreenLake se ha construido sobre el software HPE Ezmeral y se ha optimizado para análisis Apache Spark basados en Kubernetes con integración de Delta Lake.
  • HPE Ezmeral y Apache Spark 3.0 con Delta Lake proporcionan datos fiables y coherentes para aplicaciones de aprendizaje automático y análisis empresariales. La organización en clústeres basada en Kubernetes permite un escalado dinámico para las cargas de trabajo con uso intensivo de datos.
  • HPE Ezmeral Runtime ofrece gestión de clústeres y aplicaciones líder del sector para infraestructuras físicas y basadas en la nube.
  • HPE Ezmeral Data Fabric eleva la gestión de datos y el almacenamiento de inquilinos.

HPE Ezmeral Data Fabric

Temas relacionados