Cloud-Native Big Data : Déploiement & Orchestration Modernisation de l'infrastructure de traitement des données massives (Cas d'usage : Tunisie Telecom) Architecture / Implémentation / OpenShift NotebookLM.
Le Défi des Données Massives DATR Le Volume Tunisie Telecom génére des milliards d'enregistrements (CDR : Call Detail Records), de journaux techniques et de données de facturation. Le Point de Rupture • Bases de données relationnelles limitées : Des temps de traitement des requétes atteignant plusieurs jours. • Cloud Privé traditionnel : Coüts élevés, gestion complexe, rigidité face aux pics de charge. Le Besoin : Une architecture qui allie évolutivité instantanée, haute disponibilité et optimisation des coüts matériels. NotebookLM.
Le Changement de Paradigme : Évaluation des Architectures Critére Scalabilité Coüt d'investissement Flexibilité Haute disponibilité Bare Metal @ Faible @ Élevé @ Faible @ Limitée Virtualisation @ Moyenne @ Élevé @ Moyenne @ Moyenne Solutions Commerciales @ Moyenne @ Tres élevé @ Faible @ Bonne OpenShift (Cloud-Native) @ Optimisé (réutilisation infra) @Tres élevée @ Native La conteneurisation sur OpenShift élimine Ies silos physiques et Ies licences propriétaires rigides. NotebookLM.
L'Écosystéme Technologique Sélectionné Orchestration : OpenShift (Kubernetes d'entreprise, sécurité, gestion du cycle de vie). Ingestion : Apache NiFi (Acquisition des flux, transformation visuelle). Stockage Distribué : HDFS (Systéme de fichiers robuste, tolérance aux pannes). Analyse : Apache Hive + PostgreSQL (Interrogation SQL des données massives, Metastore). Coordination : ZooKeeper (Gestion du basculement et synchronisation). NotebookLM.
Architecture Globale en Couches SFTP HTTP/HTTPS Couche d'Accés : Routes OpenShift (HTTP/HTTPS) et acces SFTP pour l'ingestion. Couche Conteneurs : Pods encapsulant les services (ZooKeeper x3, NameNodes x2, DataN0des x5, NiFi x3, Hive). Couche d'Orchestration : Red Hat OpenShift (Gestion HA, Autoscaling). Couche Matérielle : Serveurs Bare Metal (Data Center Tunisie Telecom). NotebookLM.
Le Cycle de 1. Conteneurisation . Construction des images optimisées via Podman (sans démon root) . 5. Automatisation . Ajustement dynamique des ressources via CronJobs. Vie Cloud-Native 6 GitOps Pipeline Automatisé 4. Monitoring . Collecte des métriques vxa Prometheus. 2. Registre Privé : Stockage et versionnage sécurisés des images dans Quay. 3. Orchestration . Déploiement déclaratif (YAML) sur les Worker Nodes OpenShift. NotebookLM.
Le Pipeline de Données : De IIAcquisition å l'Analyse 1. Source (Serveur SFTP) Dépöt continu des fichiers d' appels (CDRs) . 2. Ingestion (Apache NiFi) Polling périodique (30s) et récupération sécurisée. 3. Transformation Filtrage et formatage å la volée. II 4. Stockage (HDFS) Découpage en blocs de 128 Mo, réplication x3 sur les DataNodes . be—Ü 5. Exploitation (Hive SQL) Interrogation analytique par les utilisateurs finaux . NotebookLM.
Zoom sur I'lngestion . • Apache NiFi Processor A (GetSFTP) Connexion au serveur, détection via Regex (.*\.csv$), Iécupération sans perte. Avantage Clé : Processor B (PutHDFS) Écriture directe dans le cluster Hadoop (/user/hive/warehouse/dbar Queue de transfert Gestion visuelle du Backpressure pour éviter la surcharge. Une interface graphique robuste remplagant les scripts d'ingestion fragiles. NotebookLM.
Stockage Distribué & Persistance (HDFS sur OpenShift) NameNode 1 Fichier 128 Mo 128 Mo DataNodes hat hot PVC 128 Mo PVC PVC PVC PVC PVC Volume Physique hat PVC PVC PVC PVC Volume Physique (500 GiB) Architecture HDFS : 1 Fichier -> Blocs de 128 Mo -> Réplication x3 sur 5 DataNodes. Le Défi Kubernetes : Les conteneurs sont éphéméres ; HDFS exige de la persistance. La Solution OpenShift : Utilisation de PVC (Persistent Volume Claims). Chaque pod DataNode est lié dynamiquement å un volume de stockage physique (500 GIB), garantissant la survie des données méme si le pod redémarre. NotebookLM.
Traitement Analytique : Hive & PostgreSQL La Table Externe (MSCArchive) : Représentation logique des données CDR (durée, numéro, IMEI). Le Metastore (PostgreSQL) : Stocke les schémas, types de données et emplacements physiques. II sert de pont. HDFS Data Blocks (128 Mo) L'Exécution : Hive traduit les requétes SQL (HiveQL) en opérations de lecture directes sur les blocs de 128 Mo dans HDFS, permettant dianalyser des milliards de lignes en paralléle. NotebookLM.
Tolérance aux Pannes : Basculement Automatique (Failover) État Normal ZooKeeper surveille via Heartbeats. Panne & Reprise Perte de signal Absence Heartbeat PANNE (Défaillance) NameNode O (Actif) gere HDFS. HDFS ZooKeeper surveille via Heartbeats. Élection immédiate : NameNode 1 devient Actif. Heartbeat Heartbeat 4) NameNode O (Actif) göre HDFS. HDFS Heartbeat Heartbeat NameNode 1 (Standby) synchronise via 3 JournalNodes. NameNode 1 (Actif) devient Actif. JournalNodes JournalNodes Basculement total réussi en < 1 minute avec zéro perte de données. Élection immédiate : NameNode 1 devient Actif. NotebookLM.
La Solution Personnalisée . Surveillance . Prometheus surveille en continu le taux d' occupation physique de HDFS. Déclencheur . Capacité > 80 % Action (CronJob) OpenShift injecte dynamiquement de nouveaux pods DataNode. Scalabilité Intelligente : L'Autoscaling Métier OPENSHIFT Red Hat Le Probléme standard : L' autoscaling traditionnel se base sur Ie CPU/RAM, ce qui est inadapté pour Ie stockage de Big Data. Nouveau Pod DataNode Résultat : Rééquilibrage automatique des blocs de données sans intervention humaine..
Sécurité et Isolement en Environnement Télécom Namespaces (pfe-makrem) Isolement logique strict des ressources au sein du cluster. Routes Sécurisées Exposition des interfaces Ul (NiFi, HDFS) via HTTPS. T SCC (Security Context Constraints) : Contröle granulaire interdisant I'exécution en mode root et restreignant l'accés aux volumes hötes. Stateful Sets Maintien d' identités réseau stables pour Ies næuds Hadoop critiques. NotebookLM.
Synthése des Résultats et Création de Valeur Time-to-Market Accéléré Déploiement déclaratif (YAML) en quelques minutes au lieu de scripts manuels complexes sur plusieurs jours. O Optimisation des Coats Réutilisation de 1 ' infrastructure OpenShift existante de Tunisie Telecom, évitant 1 'achat de licences Hadoop coüteuses. Résilience Absolue Continuité de service garantie par 1 ' automatisation HA (ZooKeeper) . Élasticité Native L ' infrastructure s' adapte å la donnée, et non 1 ' inverse. NotebookLM.