Almacenes de datos
¿Qué es un almacén de datos?
Un almacén de datos es un repositorio para almacenar, gestionar y distribuir conjuntos de datos.
La expresión abarca todos los tipos de datos que produce, utiliza y almacena una organización.
¿Cuáles son los diferentes tipos de almacenes de datos?
A continuación se enumeran los tipos de almacenes de datos más comunes.
Base de datos relacional (RDB): el tipo de almacén de datos más duradero y fiable. La base de datos relacional representa el estándar del sector para el almacenamiento fiable. Una base de datos relacional organiza los datos en tablas, cada una con un esquema que define sus columnas. A su vez, cada fila, que representa un registro de información, debe ajustarse al esquema teniendo un valor para cada columna. En resumen, se asigna un valor de esquema a la información y, por tanto, se establece y mantiene una relación entre el valor y la información.
Base de datos no relacional (NoSQL): una base de datos que mantiene la durabilidad, resiliencia, persistencia, capacidad de replicación, capacidad de distribución y rendimiento, al tiempo que no aplica esquemas (o los aplica libremente). Las bases de datos no relacionales (NoSQL) se subdividen en dos categorías principales: almacenes de documentos y almacenes de columnas anchas.
· Almacén de documentos: un almacén de clave-valor, donde no se utiliza nunca la clave. El valor se convierte en un blob de datos semiestructurados y el almacén de datos se compone de una gran colección de blobs. El lenguaje del almacén de datos permite a un usuario ordenar o filtrar datos en función del contenido encontrado en los blobs de documentos.
· Almacén de columnas anchas (WCS): en esencia, un almacén de documentos híbrido y una base de datos relacional. Aunque el almacén de columnas anchas (WCS) emplea tablas, filas y columnas, los nombres y formatos de las columnas forman filas en una sola tabla.
Almacén de clave-valor: un hashmap a escala de producción (un hashmap es un mapa de claves a valores). Este tipo de almacén de datos no cuenta con elementos relacionales o no relacionales, tan solo con claves y valores. Resulta adecuado para almacenar objetos simples temporalmente.
Motor de búsqueda de texto completo (FTSE): técnicamente, los motores de búsqueda de texto completo son almacenes de datos NoSQL. Mientras los motores de búsqueda resultan adecuados para buscar y filtrar por coincidencias exactas de texto y valores numéricos (las bases de datos pueden lograr resultados similares), los motores de búsqueda de texto completo resultan ideales para buscar subcadenas específicas o palabras con campos de texto más largos.
Cola de mensajes: aunque se diseñaron inicialmente pensando en la transferencia de datos, las colas de mensajes operan con la misma fiabilidad que los primeros tipos de almacenes de datos. Una cola de mensajes funciona como un almacén de pseudoclave-valor, pero resulta más adecuado cuando necesitas almacenar, poner en colas o enviar datos de forma temporal.
¿Qué incluye un almacén de datos?
Un almacén de datos puede incluir datos de aplicaciones de bases de datos de usuarios finales, datos aleatorios propiedad de una organización, así como sistemas de información, archivos o documentos. Puede ser estructurado, desestructurado o presentarse en diversos formatos electrónicos.
La clasificación de un almacén de datos depende de la organización. Un almacén de datos puede clasificarse como centralizado, operacional o específico de una aplicación, y se puede designar e implementar empleando software de diseño específico o mediante una aplicación de base de datos típica.
HPE y los almacenes de datos
Un almacén de datos único es una idea lógica. La mejor forma de ejecutar un almacén de datos único es empleando una implementación lógica. HPE Ezmeral es una idea lógica: una plataforma abierta, un almacén de objetos de alto rendimiento, una base de datos multimodo, con multiinquilino híbrido y un espacio de nombres único global.
HPE Ezmeral integra archivos, bases de datos NoSQL, objetos y varios tipos de datos de streaming de arquitecturas nativas de la nube y Big Data existentes en un único almacén de datos. Ello permite a los usuarios acelerar el plazo para la obtención de información y proteger el uso compartido de datos a través de aplicaciones y herramientas de análisis de datos modernas y tradicionales.
Se emplea un espacio de nombres global único para crear y acceder a las topologías edge-to-cloud de HPE Ezmeral Data Fabric. Esto simplifica el acceso a los datos de cualquier aplicación, con independencia de la interfaz que se emplee o del lugar en el que estos residan. HPE Data Lakehouse se ha diseñado específicamente no solo para procesar grandes cantidades de análisis de datos estructurados, sino también para combinar las ventajas de la escalabilidad y la flexibilidad de HPE Data Lake con la gestión de datos y las estructuras del almacén de datos.