Lac de données Qu’est-ce qu’un lac de données ?
Un lac de données est un référentiel dans lequel les données sont ingérées sous leur format d’origine, sans aucune modification. Contrairement aux entrepôts de données ou aux silos, les lacs de données utilisent une architecture plate avec stockage d’objet pour conserver les métadonnées des fichiers. Cette méthode de stockage est particulièrement utile lorsqu’elle fait partie d’une plus grande plateforme de gestion des données, et elle s’intègre bien avec les données et outils existants pour offrir une analytique encore plus puissante. Le but est de découvrir des informations et des tendances tout en préservant la sécurité, l’évolutivité et la flexibilité.
- Comprendre les lacs de données
- Pourquoi les organisations choisissent-elles les lacs de données ?
- Avantages d’un lac de données
- Lac de données et entrepôt de données
- Que sont les plateformes de lac de données ?
- Comment les lacs de données sont-ils utilisés aujourd’hui ?
- HPE et les lacs de données
Comprendre les lacs de données
Un lac de données permet de stocker dans un emplacement centralisé, généralement le cloud, une grande quantité de données dans leur format brut natif. Tirant parti d’un stockage d’objets peu coûteux, de formats ouverts et de l’évolutivité cloud, un large éventail d’applications peuvent profiter de la richesse des données stockées dans un lac de données.
- Peuvent y figurer n’importe quel type de données qualitatives comme les données non structurées, souvent appelées « Big Data » et les données semi-structurées — un atout essentiel pour les cas d’utilisation actuels du machine learning et de l’analytique avancée.
- Dans l’espace réseau, la télémétrie des infrastructures et des points de terminaison peut se concevoir comme des descripteurs et des classificateurs venant alimenter les modèles et les algorithmes d’IA/de ML permettant d’identifier les données de base et les anomalies.
- En tant qu’entreprise utilisatrice, ce sont votre infrastructure et vos terminaux clients qui alimentent le lac de données. Votre fournisseur de réseau maintient celui-ci de façon à fournir des outils IA qui aident le département informatique à exploiter votre réseau plus efficacement.
Pourquoi les organisations choisissent-elles les lacs de données ?
Les lacs de données permettent aux entreprises de transformer des données brutes en données structurées prêtes pour l’analyse SQL, la science des données et le machine learning, mais avec une plus faible latence. Tous les types de données sont collectés plus facilement et sont conservés indéfiniment, y compris pour la diffusion en continu d’images, de vidéos, de fichiers binaires, etc. Étant donné que le lac de données est adapté à de multiples types de fichiers et qu’il constitue une « sphère de sécurité » pour les nouvelles données, il est plus facile de le tenir à jour.
Grâce à ce type de flexibilité, les lacs de données permettent à des utilisateurs ayant des compétences, des localisations et des langues différentes d’effectuer les tâches dont ils ont besoin. Par rapport aux entrepôts de données et aux silos que les lacs de données ont effectivement remplacés, la flexibilité qu’ils offrent aux applications de Big Data et de machine learning est de plus en plus évidente.
Avantages d’un lac de données
Un lac de données offre au client les avantages suivants :
- Des bases de référence dynamiques pour les performances réseau de son site, sans avoir à définir manuellement les attentes de niveau de service (SLE).
- Des comparatifs qui indiquent où des sites similaires ont rencontré des problèmes sur la base de leurs propres données.
- Conseils d’optimisation fondés sur les données de performance du comportement d’un site client similaire.
- Réentraînement continu de l’IA/ML à mesure qu’émergent des technologies, des infrastructures et des terminaux de nouvelle génération.
Lac de données et entrepôt de données
Si le lac de données et l’entrepôt de données peuvent tous deux être utilisés pour stocker de grandes quantités de données, il existe plusieurs différences essentielles dans la manière d’accéder à ces données ou de les utiliser. Les lacs de données stockent des données brutes, quel que soit le type de fichier. En revanche, un entrepôt de données stocke des données qui ont déjà été structurées et filtrées dans un but précis.
Grâce à leur format ouvert, les lacs de données ne requièrent pas de type de fichier spécifique et les utilisateurs ne sont soumis à aucun enfermement propriétaire. L’un des avantages des lacs de données par rapport aux silos ou aux entrepôts est la possibilité de stocker tout type de données ou de fichiers, à la différence des environnements plus structurés. Autre avantage : il n’est pas nécessaire de déterminer la finalité d’un lac de données au moment de sa mise en place, alors qu’un entrepôt de données est défini dès le départ comme un référentiel de données filtrées qui ont déjà été traitées avec une intention précise.
Un lac de données centralisé est plus avantageux qu’un ensemble de silos ou d’entrepôts, car il écarte les problèmes tels que la duplication des données, les politiques de sécurité redondantes et les difficultés liées à la collaboration multi-utilisateur. Pour l’utilisateur en aval, un lac de données apparaît comme un lieu unique pour rechercher ou interpoler de multiples sources de données.
En comparaison, les lacs de données sont également très durables et économiques en raison de leur évolutivité et de leur capacité à exploiter le stockage d’objets. Et comme l’analyse avancée et le machine learning à partir de données non structurées sont devenus des priorités croissantes pour de nombreuses entreprises, la capacité à « ingérer » des données brutes dans des formats structurés, semi-structurés ou non structurés fait des lacs de données un choix de plus en plus populaire pour le stockage des données.
Que sont les plateformes de lac de données ?
Pratiquement tous les grands fournisseurs de services cloud proposent des solutions modernes de lacs de données. Pour les datacenters sur site, le système de fichiers Hadoop (HDFS) reste un quasi-standard. Cependant, à mesure que les entreprises adoptent l’environnement cloud, de nombreuses options s’offrent aux data scientists, ingénieurs et informaticiens qui cherchent à tirer parti des possibilités accrues offertes par le transfert de leur stockage de données vers un environnement de lac de données basé sur le cloud.
Les lacs de données sont particulièrement utiles pour traiter des données diffusées en continu comme les flux JSON. Les trois cas d’utilisation les plus courants sont le Business Analytics ou l’intelligence économique, la science des données axée sur le machine learning et la diffusion de données — des applications hautes performances qui sont tributaires des données en temps réel.
Tous les grands fournisseurs de services cloud, d’Amazon Web Services (AWS) à Microsoft Azure en passant par Google BigQuery, proposent le stockage et les services nécessaires aux lacs de données basés sur le cloud. Quel que soit le niveau d’intégration recherché par une organisation, de la simple sauvegarde à l’intégration complète, les options ne manquent pas.
Comment les lacs de données sont-ils utilisés aujourd’hui ?
Par rapport à il y a seulement deux ou trois décennies, la plupart des décisions d’affaires ne sont plus basées sur des données transactionnelles stockées dans des entrepôts. Le passage d’un entrepôt de données structuré à la fluidité de la structure du lac de données moderne répond à l’évolution des besoins et des capacités des applications modernes de Big Data et de science des données.
Bien que de nouvelles applications continuent d’apparaître presque quotidiennement, certaines des applications les plus typiques du lac de données moderne sont axées sur l’acquisition et l’analyse rapides de nouvelles données. Par exemple, un lac de données est capable de combiner les données clients d’une plateforme CRM avec l’analyse des médias sociaux ou une plateforme marketing capable d’intégrer l’historique d’achat d’un client. En combinant ces éléments, une entreprise peut identifier plus précisément ses domaines de profit potentiels ou la cause de la perte de clients.
De même, un lac de données permet aux équipes de recherche et développement de tester des hypothèses et d’évaluer les résultats. Les moyens de collecter des données en temps réel étant de plus en plus nombreux, un lac de données rend les méthodes de stockage ou d’analyse plus rapides, plus intuitives, et accessibles à un plus grand nombre d’ingénieurs.
HPE et les lacs de données
Le Big Data permet aux entreprises d’aujourd’hui de relever leurs plus grands défis. Si Hadoop a réussi à extraire de la valeur des données non structurées, les entreprises recherchent de nouveaux moyens, plus efficaces, de simplifier leurs méthodes de travail.
Les entreprises engagent actuellement d’énormes dépenses liées à l’analytique, qu’il s’agisse de systèmes, de data scientists ou d’équipes informatiques, afin de mettre en œuvre, d’exploiter et de maintenir leur gestion des données sur site basée sur Hadoop. Comme pour tout environnement de données, les besoins en capacité peuvent évoluer de manière exponentielle.
HPE GreenLake offre aux entreprises une solution cloud véritablement évolutive qui peut simplifier fondamentalement leur expérience Hadoop en éliminant les facteurs de complexité et de coûts pour donner la priorité à l’extraction d’informations à partir des données. HPE GreenLake offre une solution de bout en bout comprenant matériel, logiciels et prestations HPE Services.
En optimisant le potentiel de vos données, HPE GreenLake tire pleinement parti du lac de données HDFS déjà contenu dans l’environnement sur site, tout en exploitant les avantages et les informations offerts dans le cloud.