Lago de datos ¿Qué es un lago de datos?
Un lago de datos es un repositorio donde se incorporan datos en su forma original, sin alteraciones. A diferencia de los silos o almacenes de datos, los lagos de datos emplean una arquitectura plana con almacenamiento de objetos para mantener los metadatos de los archivos. Resulta más útil cuando forma parte de una plataforma de gestión de datos más grande y puede integrarse bien con los datos y herramientas existentes para proporcionar mejores análisis. Su objetivo es ayudar a descubrir información y tendencias sin dejar de ser seguro, escalable y flexible.
- Los lagos de datos explicados
- ¿Por qué eligen las organizaciones los lagos de datos?
- Beneficios de los lagos de datos
- Lago de datos frente a almacén de datos
- ¿Qué son las plataformas de lagos de datos?
- ¿Cómo se emplean los lagos de datos en la actualidad?
- HPE y los lagos de datos
Los lagos de datos explicados
Un lago de datos se utiliza para almacenar una gran cantidad de datos en su formato nativo, sin procesar, en una ubicación central, normalmente la nube. Mediante el uso de un almacenamiento de objetos de bajo coste, los formatos abiertos y la escalabilidad de la nube, son muchas las aplicaciones que pueden aprovechar la gran cantidad de datos contenidos en un lago de datos.
- Se pueden almacenar todo tipo de datos cuantitativos, incluidos los no estructurados (a menudo llamados «Big Data») y los semiestructurados, lo cual es fundamental para los casos de uso actuales de aprendizaje automático y análisis avanzado.
- En el ámbito de las redes, pensemos en la infraestructura y la telemetría de terminal que se utilizan como descriptores o clasificadores para alimentar los modelos y algoritmos de inteligencia artificial/aprendizaje automático para identificar valores de referencia y anomalías.
- Como cliente, tu infraestructura y los terminales son los que alimentan el lago de datos, mientras que tu proveedor de red lo mantiene para ofrecerte herramientas basadas en IA que ayudan a la TI a operar tu red de forma más eficiente.
¿Por qué eligen las organizaciones los lagos de datos?
Los lagos de datos permiten a las empresas transformar datos sin procesar en datos estructurados, listos para análisis basados en SQL, data science y aprendizaje automático, pero con una latencia menor. Todos los tipos de datos se recopilan con más facilidad y se retienen indefinidamente, incluidas imágenes de streaming, vídeo, archivos binarios y más. Puesto que el lago de datos proporciona capacidad de respuesta para diversos tipos de archivos y un «puerto seguro» para datos nuevos, resulta más sencillo mantenerlo actualizado.
Con este tipo de flexibilidad, los lagos de datos brindan a los usuarios distintos tipos de conjuntos de capacidades, configuraciones regionales e idiomas para realizar las tareas que necesitan. Cuando se comparan los lagos de datos con los almacenes de datos y silos a los que han sustituido, la flexibilidad que proporcionan para aplicaciones de Big Data y aprendizaje automático resulta cada vez más evidente.
Beneficios de los lagos de datos
Algunos de los beneficios de los lagos de datos para el cliente son los siguientes:
- Referencias dinámicas para el rendimiento de la red de su sitio sin configurar SLE manualmente.
- Comparaciones que resaltan los puntos donde sitios similares están experimentando problemas en función de sus propios datos.
- Sugerencias de optimización basadas en los datos de rendimiento del comportamiento de un sitio de cliente similar.
- Un reentrenamiento constante de la inteligencia artificial/aprendizaje automático, a medida que surgen nuevas tecnologías, infraestructuras y terminales.
Lago de datos frente a almacén de datos
Aunque tanto los almacenes como los lagos de datos pueden emplearse para almacenar grandes volúmenes de datos, existen varias diferencias clave en cuanto a las maneras de acceder a ellos y usarlos. Los lagos de datos almacenan datos sin procesar de, literalmente, cualquier tipo de archivo. De forma alternativa, un almacén de datos guarda datos ya estructurados y filtrados para un fin determinado.
Con su formato abierto, los lagos de datos no requieren un tipo de archivo específico ni someten a los usuarios a una dependencia del proveedor propietario. Una de las ventajas de los lagos de datos con respecto a los silos o los almacenes es la capacidad de almacenar cualquier tipo de dato o archivo, frente a un entorno más estructurado. Otra de las ventajas consiste en que no resulta necesario definir en el tiempo la finalidad que subyace a la configuración de un lago de datos, mientras que un almacén de datos se crea como un repositorio para datos filtrados que ya han sido procesados con una finalidad específica.
Un lago de datos centralizado resulta preferible frente a los silos y almacenes de datos porque elimina problemas como la duplicación de datos, las políticas de seguridad redundantes y las dificultades en la colaboración multiusuario. Para el usuario final, un lago de datos aparece como un lugar en el que buscar o interpolar varios orígenes de datos.
Los lagos de datos también resultan, comparativamente, enormemente duraderos y económicos, debido a su escalabilidad y capacidad para aprovechar el almacenamiento de objetos. Y puesto que las empresas actuales consideran a los análisis avanzados y el aprendizaje automático con datos desestructurados una prioridad cada vez mayor, la capacidad de «ingerir» datos sin procesar en formatos estructurados, semiestructurados y desestructurados convierte a los lagos de datos en una opción cada vez más popular para el almacenamiento de datos.
¿Qué son las plataformas de lagos de datos?
Prácticamente todos los proveedores de servicios de nube principales ofrecen soluciones de lago de datos modernas. Los centros de datos locales continúan empleando el sistema de archivos Hadoop (HDFS) casi como un estándar. No obstante, a medida que las empresas adoptan progresivamente el entorno de nube, los científicos de datos, ingenieros y profesionales de TI se encuentran con que disponen de numerosas opciones para aprovechar las posibilidades mejoradas de desplazar su almacenamiento de datos a un entorno de lago de datos basado en la nube.
Los lagos de datos resultan especialmente útiles cuando se trabaja con datos en streaming, como JSON. Los tres casos de uso empresariales más habituales son el análisis o inteligencia empresarial, data science centrada en aprendizaje automático y los servidores de datos; aplicaciones de alto rendimiento que dependen de datos en tiempo real.
Todos los proveedores de servicios de nube más importantes, desde Amazon Web Services (AWS) hasta Microsoft Azure o Google BigQuery, proporcionan el almacenamiento y los servicios necesarios para lagos de datos basados en la nube. Cualquiera que sea el nivel de integración que busque una organización, desde la simple copia de seguridad a la integración completa, existe una variedad casi inagotable de opciones.
¿Cómo se emplean los lagos de datos en la actualidad?
Comparadas con hace tan solo dos o tres décadas, la mayoría de las decisiones empresariales ya no se basan en datos transaccionales guardados en almacenes de datos. El cambio radical desde un almacén de datos estructurado a la fluidez de la estructura del lago de datos moderno se ha producido en respuesta a las necesidades y capacidades cambiantes de las aplicaciones de Big Data y data science modernas.
Aunque siguen emergiendo nuevas aplicaciones prácticamente a diario, algunas de las más habituales para el lago de datos moderno se centran en la rapidez de adquisición y análisis de los nuevos datos. Por ejemplo, un lago de datos puede combinar los datos de clientes de una plataforma de CRM con análisis de redes sociales, o una plataforma de marketing puede integrar el historial de compras de un cliente. Cuando se combinan estos elementos, una empresa puede comprender mejor las potenciales áreas de beneficios o las causas de la pérdida de clientes.
Del mismo modo, un lago de datos permite a los equipos de investigación y desarrollo probar hipótesis y evaluar los resultados. Al aportar cada vez más formas de recopilar datos en tiempo real, un lago de datos logra que los métodos de almacenamiento o análisis resulten más rápidos, intuitivos y accesibles a un mayor número de ingenieros.
HPE y los lagos de datos
Las empresas actuales emplean el Big Data para enfrentarse a sus mayores desafíos. Donde Hadoop ha resultado adecuado para destilar valor de los datos desestructurados, ahora las organizaciones buscan nuevas y mejoradas formas de simplificar este proceso.
Las empresas de hoy en día realizan inversiones enormes en análisis, desde sistemas, científicos de datos y plantillas de TI, para implementar, operar y mantener la gestión de datos local basada en Hadoop. Al igual que con cualquier entorno de datos, los requisitos de capacidad pueden cambiar exponencialmente.
HPE GreenLake brinda a las organizaciones una solución basada en la nube realmente escalable capaz de simplificar drásticamente su experiencia de Hadoop, al eliminar la complejidad y el coste y centrándose en su lugar en obtener el conocimiento que proporcionan los datos. HPE GreenLake ofrece una solución global completa con hardware, software y HPE Services.
Al maximizar el potencial de tus datos, HPE GreenLake aprovecha al máximo el lago de datos HDFS ya incluido en el entorno local, mientras se beneficia de las ventajas y la información presentes en la nube.