Vue d'ensemble de la gouvernance des données
La gouvernance des données est la discipline qui vise à garantir que les actifs de données sont découvrables, compréhensibles, fiables et utilisés en conformité avec les politiques légales et organisationnelles. À mesure que les volumes de données augmentent et que la pression réglementaire s'intensifie, la gouvernance est passée d'un "plus" à une exigence fondamentale.
Pourquoi la gouvernance est-elle importante ?
Conformité réglementaire
Le RGPD (Règlement Général sur la Protection des Données) exige des organisations qu'elles sachent où résident les données personnelles, documentent leur traitement, restreignent l'accès aux parties autorisées et démontrent leur capacité à les supprimer sur demande. Sans gestion systématique des métadonnées, répondre à un audit réglementaire devient un exercice manuel et sujet aux erreurs.
La Loi européenne sur l'IA — entrant en vigueur progressivement à partir de 2025 — impose des obligations supplémentaires aux organisations utilisant des systèmes de décision automatisés. Les systèmes d'IA à haut risque doivent conserver des journaux des données d'entraînement, des versions de modèles et des résultats d'inférence. La traçabilité des données capturée au niveau de la plateforme (plutôt que reconstituée après coup) est le moyen le plus fiable de satisfaire ces exigences de traçabilité.
Qualité des données et confiance
Lorsque les analystes ne peuvent pas identifier quel pipeline a produit un jeu de données, ou si une table a été mise à jour récemment, ils perdent confiance dans les données — et soit dupliquent le travail en produisant leurs propres copies, soit prennent des décisions basées sur des données obsolètes. Une plateforme de données gouvernée rend la provenance des données explicite, réduisant les duplications et améliorant la qualité des décisions.
Autonomisation en libre-service
La gouvernance permet le libre-service : un glossaire métier et un catalogue de métadonnées interrogeable permettent aux analystes de trouver les jeux de données dont ils ont besoin sans dépendre des connaissances tacites ou des tickets IT. Les politiques d'accès appliquées au niveau de la plateforme signifient que les propriétaires de données peuvent accorder des accès en toute confiance, sachant que Ranger en appliquera les limites.
Apache Atlas — Gestion des métadonnées
Apache Atlas est la couche de métadonnées et de gouvernance d'ODP. Il fournit un référentiel de métadonnées, un moteur de lignage automatique, un système de classification, un glossaire métier et une interface de recherche en texte intégral — tous accessibles via une interface web et une API REST.
Capture automatique du lignage
Atlas capture automatiquement le lignage depuis :
- Hive : chaque opération
CREATE TABLE AS SELECT,INSERT INTOouALTER TABLEdans HiveServer2 est interceptée par le hook Atlas Hive et enregistrée comme une arête de lignage. Atlas construit un graphe acyclique dirigé (DAG) montrant précisément quelles tables sources ont contribué à chaque table de sortie, y compris les transformations intermédiaires. - Spark : le listener Atlas Spark enregistre les opérations de lecture et d'écriture des DataFrames, reliant les jeux de données sources aux jeux de données de sortie au niveau du job.
- Kafka : Atlas enregistre les relations producteur-consommateur entre les topics, permettant un lignage de bout en bout depuis le pipeline d'ingestion jusqu'à la table analytique.
Le graphe de lignage résultant est navigable dans l'interface Atlas : à partir de n'importe quelle table ou colonne, vous pouvez tracer les données en avant vers tous les consommateurs en aval ou en arrière vers toutes les sources en amont — sans lire le code des pipelines.
Classification et tagging
Atlas prend en charge les classifications (également appelées tags) — des étiquettes attachées aux entités (bases de données, tables, colonnes, processus) pour transmettre une signification métier ou une sensibilité réglementaire. Exemples :
PII— Informations Personnellement IdentifiablesGDPR_SENSITIVE— données soumises aux restrictions d'accès du RGPDFINANCIAL_CONFIDENTIAL— données restreintes à l'équipe financeAI_TRAINING_DATA— jeu de données utilisé pour entraîner un modèle en production
Les classifications se propagent dans le graphe de lignage : si une colonne source est taguée PII, Atlas tague automatiquement les colonnes dérivées dans les tables en aval avec la même classification. Cela garantit que les données sensibles ne sont pas négligées lorsqu'elles sont transformées ou copiées.
Intégration Ranger-Atlas : politiques basées sur les tags
L'intégration entre Atlas et Ranger est l'une des capacités de gouvernance les plus puissantes d'ODP :
- Un gestionnaire de données tague une colonne Hive
PIIdans Atlas. - Atlas propage le tag à toutes les colonnes dérivées dans les tables en aval.
- Ranger détecte le nouveau tag et applique une politique basée sur les tags préconfigurée qui masque la colonne pour les utilisateurs sans le rôle
PII_ACCESS. - Le masquage est appliqué dans tous les moteurs — Hive, Spark, Impala, Trino — simultanément, sans créer de politiques distinctes par table.
Cette approche découple le quoi (quelles données sont sensibles) du comment (quels utilisateurs peuvent y accéder), rendant les politiques de gouvernance maintenables à mesure que le paysage des données évolue.
Glossaire métier
Le glossaire métier d'Atlas relie les métadonnées techniques (noms de bases de données, noms de colonnes, types de données) à des termes métier compréhensibles par les parties prenantes non techniques. Par exemple, la colonne cust_id dans fact_orders peut être liée au terme du glossaire "Identifiant client", qui inclut une définition métier, des informations de propriété et des termes connexes.
Lier les entités aux termes du glossaire rend le catalogue navigable pour les utilisateurs métier et assure une terminologie cohérente dans toute l'organisation.
Recherche et découverte
Atlas fournit une interface de recherche en texte intégral et à facettes sur toutes les métadonnées. Les analystes peuvent rechercher :
- Des tables contenant des colonnes nommées
revenuede typeDECIMAL - Toutes les tables Hive taguées
PIIcréées dans les 30 derniers jours - Les jeux de données produits par un job Spark ou un pipeline NiFi spécifique
L'API REST expose les mêmes capacités de recherche pour l'intégration avec des outils de catalogue de données et des portails internes.
Lignage pour la traçabilité des modèles d'IA
À mesure que les organisations construisent des modèles de machine learning sur des données stockées dans ODP, le lignage devient critique pour la gouvernance de l'IA. La Loi sur l'IA exige que les systèmes à haut risque documentent les données utilisées pour entraîner et valider les modèles. Avec le lignage Atlas :
- Le job Spark qui produit un jeu de données d'entraînement est lié à ses tables sources.
- Les tables sources portent des classifications indiquant la qualité et la sensibilité des données.
- L'entité du jeu de données d'entraînement dans Atlas enregistre quand il a été créé, par qui et à partir de quelles sources en amont.
Cette trace de lignage satisfait les obligations de documentation de la Loi sur l'IA et soutient les investigations post-incident lorsque le comportement du modèle doit être expliqué.
Atlas dans ODP 1.3.1.0
ODP 1.3.1.0 déploie Atlas avec :
- Le hook Hive activé par défaut pour le lignage automatique sur toutes les requêtes HiveServer2
- Le connecteur Spark Atlas préconfiguré pour le lignage des jobs Spark soumis via YARN
- Le hook Atlas Kafka pour le lignage au niveau des topics
- La synchronisation des tags Ranger-Atlas activée dès l'installation
- L'interface Atlas accessible via Knox pour les clients externes
- La configuration, le démarrage et la surveillance d'Atlas gérés par Ambari