Comment créer une architecture efficace de data lake ?

La création d’un Data Lake apparaît comme la solution pour de nombreuses entreprises pour gérer l’explosion des formats et des volumes de données. Cette approche, plus flexible, permet de gérer une volumétrie importante et d’économiser du temps tout en simplifiant l’accès aux données pour différents cas d’usages.

Mais un tel projet présente plusieurs aspects qui doivent être pris en compte pour garantir son succès. Vous découvrirez dans ce dossier nos recommandations pour créer une architecture de Data Lake efficace.

LE DATA LAKE : QU’EST-CE QUE C’EST ?

Un Data Lake (lac de données) est une méthode de stockage de données qui permet de stocker des données brutes provenant de toutes les sources de données. Contrairement au Data Warehouse (entrepôt de données) qui ne contient que des données structurées, un Data Lake peut stocker des données non structurées, semi-structurées ou structurées et sous n’importe quel format.

L’ÉVALUATION DES BESOINS

Le Data Lake n’est pas qu’un moyen de créer une base de données à moindre coût. Sa mise en place nécessite des compétences, des ressources matérielles et financières, mais également une bonne coordination entre les attentes de l’entreprise et les moyens déployés.

Beaucoup d’entreprises font l’erreur de sous-estimer leurs besoins pour se rendre compte des mois après que le résultat déçoive. D’autres encore font l’erreur inverse. Elles vont sur architecturer en surestimant leurs besoins. Elles finissent alors par se ruiner en stockant des terabytes qui n’apportent finalement pas autant de valeur qu’espérée.

Il est donc primordial de mener une réflexion approfondie sur les besoins de la valeur que le Data Lake doit apporter à l’entreprise avant de se lancer dans un tel projet.

LA CLASSIFICATION DES DONNÉES

La classification est la base de l’organisation des données dans un Data Lake. La deuxième étape pour mettre en place un lac de données efficace consiste donc à créer un répertoire pour classer les données. Il s’agit d’identifier les aspects clés des données à stocker comme :

Le type de données,
Le contenu des données,
Les types d’utilisateurs possibles
Les différents scénarios d’utilisation,
Etc.

L’utilisation des outils de profilage des données peut aider à identifier les problèmes liés à la qualité des données et les corriger afin de s’assurer que les bonnes informations soient mises à disposition des utilisateurs (métier, data scientist, APIs).

CRÉER LA BONNE ARCHITECTURE DE DATA LAKE.

L’architecture du Data Lake peut être mise en place dans différents environnements (Hadoop, AWS, Microsoft Azure, etc.). Quelle que soit la formule choisie, votre architecture big data doit faciliter l’organisation des données dans le lac de données. Elle doit faire ressortir par exemple les règles de nommage des dossiers et des fichiers, la hiérarchie des fichiers, les méthodes d’accès aux différents groupes de données et les mécanismes utilisés pour leur distribution.

Pour y arriver, vous devez considérer le cycle de vie de la gestion des données : collecte, stockage, chargement sur un stockage intermédiaire, nettoyage, génération des rapports, contrôle de qualité.

Ce n’est bien évidemment pas une chose simple. C’est pourquoi nous recommandons de commencer par quelque chose de simple et maîtrisé avant d’aller vers des sources non structurées. Vous pourrez ainsi construire des bases solides et être capable de corriger le tir en cas d’échec sans devoir tout reprendre à zéro.

En effet, l’architecture d’un Data Lake est évolutive. Vous devez donc l’étoffer de manière progressive et en procédant par itération. Une architecture de Data Lake qui ne répond pas aux besoins en termes de fonctionnalités et de confort doit-être améliorée ou abandonnée.

LA GESTION DES ACCÈS

L’accès aux données doit être normalisé pour favoriser un usage efficace du lac de données. En effet, la multiplication et la non-hiérarchisation des méthodes utilisées par les équipes d’analyse pour accéder aux données peuvent constituer un véritable frein à l’efficacité de votre structure de lac de données. Ce problème peut être résolu grâce à la mise en place d’une API commune destinée à simplifier les accès.

LA SÉCURISATION DES DONNÉES

La création d’un Data lake est un projet informatique et est donc soumis à des risques d’intrusion, de vol de données, de destruction de données, etc. S’il est vrai que les technologies de sécurisation et de gouvernance des données sont en constante évolution, la cybercriminalité évolue elle aussi au même rythme.

Il est donc nécessaire de faire recours à des méthodes plus évoluées, en plus des aspects traditionnels de la sécurité IT, comme la surveillance automatisée, l’authentification de l’utilisateur, le chiffrement et le masquage des données afin de garantir la sécurité des données sensibles. Cela concerne à la fois l’organisation qui exploite le lac de données et celle qui le déploie.

LE CHOIX DE LA MÉTHODE DE STOCKAGE

Deux grands choix s’offrent à vous pour l’emplacement du stockage de vos données : le Data Lake sur site et le Data Lake dans le cloud. Ces deux solutions présentent des avantages et des inconvénients spécifiques et il convient d’étudier la question en profondeur pour déterminer celle qui répond le mieux aux besoins de votre entreprise.

LE DATA LAKE SUR SITE

Les Data Lakes sont généralement construits sur site en utilisant un stockage sur HDFS (Hadoop Distributed File System). Dans ce cas, les données sont stockées dans le même emplacement où le traitement s’effectue, ce qui facilite leur exploitation et garantit un contrôle absolu. Toutefois, les infrastructures sur site ne sont pas sans inconvénient :

L’approvisionnement du matériel ainsi que les étapes de configuration/installation du data center prennent beaucoup de temps à cause de la complexité du travail.
Les serveurs prennent beaucoup d’espace sur le site.
Le coût de mise en place de l’infrastructure est généralement beaucoup plus élevé.
L’augmentation de l’espace de stockage nécessite beaucoup d’effort et du temps puisqu’il faudra attendre que les dépenses (qui sont élevées) soient validées par les dirigeants et décideurs.

En cas de mauvaise estimation de l’espace de stockage, les difficultés d’évolutivité rendent la situation plus complexe à gérer.

LE DATA LAKE SUR LE CLOUD

La création d’une infrastructure de Data Lake basée sur le cloud présente plusieurs avantages :

Les utilisateurs peuvent procéder par incrémentation, ce qui rend la mise en place plus facile et plus rapide.
Le cloud ne nécessite que très peu d’espace sur le site.
Il est plus facile d’augmenter l’espace de stockage.
Les dépenses liées au déploiement sont réduites.
La facturation se fait à l’utilisation ce qui favorise un meilleur contrôle des dépenses.

Cependant, tout n’est pas aussi simple avec un stockage de Data Lake sur cloud. En réalité, cette solution offre moins de confiance en ce qui concerne la sécurité des données sensibles (piratage, vols de données, etc.). Certaines entreprises préfèrent donc investir dans un stockage sur site même si les fournisseurs de Data Lake ne cessent d’augmenter le niveau de protection des données.

De plus, le passage au Data Lake sur cloud peut s’avérer compliqué pour les entreprises qui ont déjà installé un data Warehouse sur site pour le stockage de données structurées. Il faut donc généralement migrer l’ensemble de ces données sur le cloud ou opter pour une solution hybride, ce qui augmente les coûts.

Enfin, la création d’une architecture efficace de Data Lake sur le cloud pose le problème de gouvernance de données. Cet aspect doit être géré avec le plus grand sérieux pour éviter que le lac de données devienne un marécage.

CE QU’IL FAUT RETENIR

L’architecture parfaite n’existe pas. Si vous la trouvez, elle sera trop longue à implémenter, trop coûteuse et difficile à maintenir. N’attendez donc pas que tout soit parfait avant de vous lancer. En appliquant nos conseils, vous réussirez à créer une architecture de Data Lake efficace, mais il faudra continuer à l’améliorer pour qu’elle accompagne l’évolution de votre entreprise.