[Audio] HPE SIMPLIVITY : RETURN OF EXPERIENCE. [image] KII/tlldWlS.
[Audio] CCAS AIX EN PROVENCE Le Pôle Infos seniors du Pays d’Aix Action Accompagnement des personnes retraitées (2APR) Services des aides à la Personne Les foyers restaurants Logement pour personnes âgées Service séniors, intergénérationnel et lien social Service d’Aides Sociales et Accompagnement Action Accompagnement des personnes retraitées (2APR) Centre d’Hébergement et de Réinsertion Sociale Logements d’insertion Service Accueil et orientation The Centre Communal d'Action Sociale (CCAS) is a local public administration managed by a Board of Directors chaired by the Mayor. Its mission is to implement actions tailored to the needs of the local population in partnership with the public sector (State, Département, Commune, public establishments (hospitals)), the voluntary sector, and the private sector. le CCAS est une Collectivité locale en charge de mettre en oeuvre la politique sociale de la ville d'Aix : Les activités : 1 EHPAD foyer autonomie personne âgées foyers restaurants x 2, Centre hébérgements urgence pour femme / logements d'insertions service orientation pour personnes sans domicile service de maintien à domicile (téléassistance, livraison de repas) service de soins infirmiers service aides sociales (facultatives et légales) CCAS obligatoire dans ville de + 1500 hab Celui d'Aix est autonome de la Mairie avec un Budget de 14Millions d'euros.
[Audio] Context - Main activities that require business plan continuity Nursing care (smartphone applications to give the care protocol, planning, etc..) Meal delivery for the elderly (orders, planning...) and home help service Social assistance for the needy Two home for the elderly (restoration, activities, care) Activités critiques : Soins infirmiers (envoie de protocoles de soins sur smartphone, planning des tournées des soignants, données médicales, liaison avec le DMP et les hôpitaux) Livraison repas à domicile cellule canicule(Appels des personnes âgées inscrit sur les listes + levée de doutes délivrance d'aides sociales EHPAD (Animations, soins, appels malades, bracelets anti-fugue).
[Audio] Project Requirements Ensure IT availability to maintain user services, especially for the elderly, and be able to resume all activities without service interruption No longer use a backup site in production (due to lack of resources) Implement disaster recovery procedures (IS and organizational) Avant de devenir RSI - Expérience de mon prédécesseur d'une coupure de lien fibre qui a occasionné une indisponibilité des applications métiers relatives aux Finances car les VM de production se situaient sur le site de Backup, la coupure du lien fibre entre les deux sites à occasionner une indisponibilité de plus d'une quinzaine de jours. Bien qu'ayant entrainé un retard sur les préparations budgétaires et les paiement fournisseurs cet incident n'a pas entraîné d'interruption de service / prestations aux usagers Cependant il a permis d'éveiller les consciences sur le temps nécessaires pour reprendre une activité en cas d'incident majeur sur une salle de production. Il a également permis d'affirmer une volonté politique de ne pas fermer des services aux usagers plus de 48h… L'informatisation des services de soins a également amené une nouvelle prise de conscience, notamment celle de l'obligations légales et règlementaires d'une continuité de service pour les établissements médicaux-sociaux… Au vu des activités et notamment celle de soins infirmiers il est devenu nécessaire de modifier le Plan de reprise d'activités (salle de secours hébergeant nos sauvegardes) en Plan de continuité..
[Audio] Scenarios Nimble vs. Simplivity Benefits of PCA Budget: 280K (Simplivity hardware and installation services) Includes full network recovery + fiber redundancy and UPS installation in second server room Le budget alloué à ce projet est de 280K A savoir que je n'ai pas participé à la prise de décision la techno simplivity et à la définition des besoins en fonction de l'existant Le matériel a été acheté via une central d'achat destiné à la fonction publique ce qui a permis de réduire les coûts Les prestations d'installation seront effectuées par un tiers Le réseau, trop complexe pour la taille du CCAS, pas assez redondé doit être repensé Cette refonte réseau, la création de nouvelle fibre noires, l'ajout d'une liaison internet et l'achat de nouveaux onduleurs sont inclus dans les 280k de budget Par conséquent la solution Nimble n'a pas été retenue car hors budget,.
[Audio] IT Team and Scope IT Team Sites User count Resources 220 users 1 Prod / 1 Backup / 6 Other Sites 62 VMs on VMware with Citrix Infrastructure 1 DSI / RSI and SysAdmin Afin de mieux cerner les enjeux, les éventuels problématique, il est important de cerner le périmètre 3 personnes à l'IT 8 sites à couvrir sur la ville d'Aix 220 utilisateurs du SI 60 aines de VM majoritairement Windows (quelques linux) et une infra Citrix, je le mentionne car cela a son importance, notamment sur les ressources à prévoir… Pour ce faire nous verrons dans les prochains slides comment nous avons modifié / simplifié le réseau afin de créer une salle autonome et redondé ainsi que les différentes étapes nécessaires à l'utilisation d'une solution d'hyperconvergence pour mettre en place ce projet.
[Audio] Project Phases Network Simplification Established HA links between the two sites to keep the two simplification nodes operational. Link redundancy Fiber Optic Redundancy (Simplification Requirements) UPS Installation Avoid data loss during power outages Simplivity Configuration, Testing and Procedures Setting Up the Two Simplivity Nodes and Configuring Data Stores, Policy Backups, and Rapid Disaster Recovery Phases du projet pour créer un PCA : -Simplification du réseau et création de redondance entre les deux salles -redondances des liens réseau (fibre) -Installation des système d'onduleurs -Installation, paramétrage, tests et procédures SIMPLIVITY avec la solution de Rapid Disaster Recovery.
[Audio] STEP 1 Network Simplification. STEP 1 Network Simplification.
[Audio] Legacy : Production site & Backups site The Production site has an architecture of 2 ESX (hyperviseur vmware) DL360p Gen8 servers and an HPE P2000 iSCSI storage array The Backup site has a 3rd ESX connected to the P2000 iSCSI of the Production site The backup is managed by Veeam Backup from the Production site to the P2000 iSCSI of the Backup site The DR plan is managed by Veeam Replication between the two sites Due to a lack of resources (compute) at the production site, virtual machines have been created at the Backup site Production site : 42 VMs Backup site : 17 VMs Site de prod : 2ESXI connecté à des baies de stockage Site de backup : 1 ESXI connecté à la baie de stockage du site de prod Veeam backup pour les sauvegardes Nous pouvons voir que la salle de secours etait destiné uniquement à revoir les backups Veeam de la salle de production, qui fallait alors prévoir de remonter ces backups, en cas de sinistre sur le 3ème ESX (sans garantie que la VM et notamment les bases de données ne seraient pas corrompues) de plus,le probleme de ressources ne permettait pas de reprendre une activité en redémarrant l'ensemble des VM dites critiques.
[Audio] Target Architecture Architecture Cycle Removal of CISCO Interconnection Switches Removal of some unnecessary VLANs Removed the Cisco switch at the backup site and migrated the Cisco switch ports to the HP 5412zl switch. Use the old HP 5412ZL chassis switches. for the second site Create a RSTP and VRRP links between the two switches 5412 (routing continuity in the event of failure) 2 links 1Gb/S between tHP 5412ZL switches 1- Retire tous les switch d'interco 2- Création d'une salle serveur "miroir" en utilisant le coeur de réseau de la salle de prod 3-Création de lien à la fois entre les deux switch externe et les deux coeurs de réseau l'idée étant de pouvoir redondé un maximum les deux salles.
[Audio] Redundancies and Links HA of the two FWs In active/passive mode, one firewall is on standby and becomes active if the main firewall fails. Redondance des liens en créant un lien HA entre les deux FW Si un FW tombe, les deux liens (entre les switch externes et le coeur de réseau) permettent de conserver une activité sur les deux salles.
[Audio] SDSL 10 Gbits - backup site Fiber To The Office (FTTO) - production site 2 DNS resolutions (one on each side) from your registrar if your server is externally reachable on a public IP address Création d'un lien SDSL sur la salle de PCA; -En cas de perte de la salle de production, cette dernière est autonome et doit donc avoir une connexion réseau -Utilisant de cette connexion SDSL en lien de secours en cas de perte de la FTTO sur la salle de production.
[Audio] RSTP and VRRP links between the two switches 5412 (routing continuity in case of failure) Remove MPLS site to create a VPN connection for the remote site Create multiple site-to-site VPN connections Second customer gateway to create a redundant connection to the same remote site. Double attachement des VPN au niveau des FW, ainsi si le site de production venait à tomber, il serait possible pour les sites annexes de continuer à accéder au réseau de l'entreprise via le second FW.
[Audio] BCP Activation Loss of production site, automatic switch to backup site L'activation du PCA deviendrait alors nécessaire si un coeur de réseau venait à tomber puisque l'aribiter ne verrait plus l'un des deux noeuds simplivity Par conséquent, au travers de ces slides nous avons vu que nous avons modifié le réseau afin de garantir à travers la mise en place de redondances, la disponibilité de la production mais également in fine la disponibilité des deux nodes simplivity.
[Audio] Step 2 Links redundancies. Step 2 Links redundancies.
[Audio] Fiber Optic Redundancy An HPE SimpliVity cluster can be split between two sites that are physically separated, as long as there is a connection with sufficient bandwidth to support synchronous replication between nodes, typically a 10Gbps connection with <1ms latency. This enables the use of VMware HA functionality for automated VM recovery after a site failure. In a stretched cluster configuration, the arbiter should be located at a third site. HPE SimpliVity also uses synchronous replication to maintain the mirrors or "replica sets" that are created based on policies for each VM. (See Data Resiliency). These replica sets can be local or in two remote locations connected by a WAN, creating a stretch cluster. le pre-requis technique à l'installation des simplivity est la création de lien fibre de 10 Gbps afin de limiter les latences Création de plusieurs passage de fibres noires dans la ville afin de garantir la redondances en cas de coupures d'une fibre (arrive fréquemment sur aix) nous avons donc créé trois cheminements différents entre les deux salles.
[Audio] Fibre 1 : 36 brins Fibre 2 : 12 brins Fibre 3 : 36 brins (non indiqué sur la carte).
[Audio] Step 3 UPS Installation. Step 3 UPS Installation.
[Audio] Onduleur Eaton 5PX Gen2 Temperature and Humidity Sensor Eaton Intelligent Power Protector license to createautomation and shutdown VMs Ajout d'un stack d'onduleur et achat d'une licence eaton permettant de créer des automatisations et éteindre proprement des VM ( si taux humidité sup à X% > envoie la demande à VMware de shutdown les VM, idem pour le % de batterie sur l'onduleur.
[Audio] Step 4: Simplicity Simplicity Configuration/Tests and Procedures.
[Audio] Simplivity infrastructure 2 nodes Replication synchrone entre les deux simplivity grâce à une connexion fibre de 10Gb // Installation de l'arbiter sur un troisième site Deduplication et compression des données (CF.sllide 38 pour plus d'infos).
[Audio] EASY CONFIGURATION DATASTORE You create at least one datastore for each cluster to store virtual machine files. The datastore is accessible to all HPE OmniStack hosts in the cluster in which you create it. Datastores provide shared storage for all virtual machines on the hosts. BACKUP POLICIES Create a backup policy to back up virtual machines on a recurring schedule. For example, create a backup every day and keep it for a month. Find a backup strategy that makes sense for your business. Enable HA on the cluster Enable switching of VMs from one node to another to another in the event of a server failure. HA ENABLEMENT & RAPID DISASTER RECOVERY Simplivity dans le cas présenté ici est utilisé pour créer une salle de PCA en cas de sinistre, cependant, il est également possible de l'utiliser pour créer un PRA et faire des Backups. sans passer par un produit tiers comme Veeam Backup, Ainsi la configuration de base est dans un premier temps la création d'un datastore vsphère qui permet de stocker les VM 'espace de stockage' et d'appliquer les règles de sauvegardes A noter qu'il est possible d'affiner les regles VM par VM La fonction qui nous intéresse ici et l'activation de la rapid Disaster Recovery qui permet le transfert de VM en cas de perte d'un nœud simplivity Il est donc possible de démarrer une VM sur le second noeud simplivlity en appliquant un ordre de priorité et ceux en quelques secondes vMotion vous permet de migrer en direct une machine virtuelle d'un hôte vers un autre sans interruption de service. HA offre une haute disponibilité aux machines virtuelles basées sur vMotion, HA redémarre la machine virtuelle en cas de panne .Restaurer une VM en cas d'incident est l'affaire de quelques clics dans l'interface d'administration Rapid DR se présente sous la forme d'un gestionnaire de workflows permettant d'automatiser et d'orchestrer la reprise de VM en cas d'incident ou la bascule complète d'une production sur un site de reprise après sinistre. Exemple : TOIP.
[Audio] 2-Node Failure: Witness / Arbiter HPE SimpliVity uses an Arbiter as a witness. In the event of a communication problem between the nodes, the Arbiter chooses one node over the other through a series of logical rules, and the primary node remains online and restarts any VMs associated with the secondary node. HPE SimpliVity writes a copy of all data to both nodes in our 2-node cluster, allowing the system to provide HA in the event of a node failure. Ainsi si l'arbiter détecte qu'un noeud n'est plus joignable, va alors "donner l'ordre" de redemarrer l'ensemble des VM qui étaient associés au noeud qui n'est plus joignable.
[Audio] Démo Simplivity : Node Failure. [image] A two node SimpliVity cluster has one node powered off vSphere HA and SimpliVity storage availability work together to recover 58 VMs.
[Audio] BCP Testing BCP testing involves a series of exercises and simulation tests designed to mimic the effects of a crisis. One test is conducted each year: - The network link between the Arbiter and the production site is disconnected to verify that the VMs are correctly transferred to the BCP site and restarted correctly. Exception: TOIP TEST => TOIP VMs must not be part of HA VMs assigned to the BCP site must take over without service interruption. chaque année nous essayons de valider le bon fonctionnement du PCA en simulant la perte d'un noeud Nous avons une contrainte majeur dans notre infra, il s'agit de la TOIP, nous utilisons un système d'alcatel, un OXE qui selon les préconisations fabricant, ne support pas le VMotion, par conséquent, en créant un datastore TOIP nous avons pu configurer que toutes les VM en liens avec la Téléphonie ne seraient pas remonté sur le noeud secondaire En effet nous simplement créer des machines secondaires assignés au noeud de secours et qui seront redemarrés en cas d'incident Nous n'avons jamais rencontré de souci lors des tests de mise en situation, l'impact sur les utlisateurs du SI ont été tres minime, une deconnexion de leur sessions pour une reprise quasi immediate sans perte de données.
[Audio] BCP Procedure Procedures are written for each VM to determine which VMs should be : Reboot on the second node Shut down the VM on the second node Create a policy to not use VMotion on the VM (use Alcatel OXE for the phone). All procedures, credentials and passwords of the IT team are stored in a safe at the second site. Computer equipment, thin Dell Wyse, screen, keyboard, mouse, phone and printers are stored at the backup site ready for use. En cas de simulation de PCA, nous avons procédure qu'elle VM devait rester éteinte (TOIP) les VM de TOIP ne supporte pas le VM motion nous avons donc des VM de secours déjà en ligne sur les sites de secours, cependant et comme nous le verrons dans les prochaines slides, pour garantir des ressources suffisantes en cas de prolongement du PCA, nous avons définies les VM critiques qui vont redémarrer et celles que nous pouvons éteindre Toutes les procédures informatiques sont stockés dans un coffre fort sur le site de secours avec l'intégralité des mdp du service informatique Du matériel est prêt également à être redéployé sur le site de secours, des écrans, des clients légers, un standard téléphonique fonctionnel…afin de garantir une reprise d'activité la plus rapide et efficace possible.
[Audio] Return of experience. Return of experience.
[Audio] RETEX - 5 years later.... No SIMPLIVITY Equipment Failure (5 Year Manufacturer Warranty) Problem encountered: Not enough CPU given the number of VMs deployed - On the hardware side, CPU resources are indeed in high demand, so there is some risk of resource contention if an ESXi is lost. To increase CPU resources, you need to add new Simplivity nodes, but there are significant implications to this addition: o You must have at least 10Gb/s switches for storage replication. o In the case of an extended cluster (one Simplivity node per server room), an even number of nodes must be added to provide resiliency in the event of a loss of one of the two server rooms, a point confirmed by HPE. 5 ans après, nous n'avons jamais rencontré de problématique lié au matériel simplivity, cependant, nous rencontrons des soucis de ressources CPU, notamment lié à une mauvaise définition des besoins, nous avons créé une dizaine de VM mais surtout le changement des OS vieillissant (upgrade 2012 à 2019) et Exchange onPremise en 2019 et evolution de la ferme Citrix,ont entraîné utilisation du CPU plus importante que prévue initialement,.
[Audio] Upgrade Simplivity ? SIMPLIVITY ; Add RAM, Add Storage but no CPU On remarque très vite qu'il est possible d'augmenter la mémoire, la RAM mais que le CPU ne peut pas dépasser 22 Cores sur l'ensemble des configurations.
[Audio] Add a third node? Add a third node? PRODUCTION BCP Point discussed with HPE: it is not possible to install a 3rd node on the prod site.Currently, the VMs of Simplivity A could also be replicated on Simplivity B, but a total loss of the prod site would not allow a complete recovery of production on site C. SIMPLIVITY C SIMPLICITY A SIMPLICITY B "Because it's continuous replication, if there's data on the disk of one host, it's immediately replicated to the other disks. This means that if a host suddenly fails, the VMs running on it can be restarted as soon as it becomes unreachable. Your VM data is on all hosts at the same time". Nous avons donc envisagé d'ajouter un troisième noeud sur la prod tout en prenant en compte qu'il ne sera pas possible de redémarrer l'intégralité des VM sur un seul noeud Cependant la problématique abordée avec HPE a été la suivante ; les données etant répliqués en continue, une défaillance soudaine entraine le redemarrage des VM sur toutes les hotes et pas uniquement sur une hote définie, dans le schéma ci-dessus il n'est pas envisageable de demander aux simplivity A et B de redémarrer la VM sur le simplivity C, les VM démarreront sur les autres disponibles prod ou secours peu importe.
[Audio] Clearly define your needs Don't underestimate your needs (it's not easy to upgrade a simplicity) Audit VM Resources Don't always rely on vendor recommendations (CPU) Forecast renewal budget License Cost: 24-core production site license and 24-core BCP site license Difficulties in involving decision makers in the BCP process Ne pas sous estimer ces besoins, les évolutions métiers, OS, les nouveaux serveurs à créer… Ne pas toujours appliquer les recommandations des editeurs en terme de CPU, plusieurs audit nous ont montrés que nous surevaluation les ressources CPU d'Ou l'interet d'auditer avec des outils tels que Veeam One prévoir le renouvellement au niveau budgétaire, le matériel étant garantie 5 ans, il est certe possible de demander une prolongation de garantie à HPE mais à minima 300k sont nécessaires tous les ⅚ ans pour renouveler et le matériel HPE et les onduleurs de la salle de secours, Les licences VMware étant certe un sujet à part entière, il faut dans le cas présent prendre en compte les licences Microsoft à la fois pour la salle de prod mais également pour la salle de secours et le budget n'est pas négligeable puisque nous arrivons à un budget de 37K pour uniquement les licences datacenter pour 48 cores Enfin même si nous avons réussi a créer en terme IT un BCP, il 'n'a pas été possible d'aller plus loin dans la démarche, nous n'avons pas réussi à y intégrer des éléments lié à l'organisation et à faire participer le CODIR à cette réflexion (métiers prioritaires, les personnes décisionnaires etc…) il s'agit aujourd'hui encore uniquement de procédure IT mal connues ou comprise du CODIR.
[Audio] Simplivity Renewals We decided to renew our two Simplivity nodes with the same configuration (RAM / CPU / storage) with only one difference, to switch our storage server to Linux (with a backup on an S3 already in place). We could have looked at other vendors such as Nutanix, but since we were happy with Simplivity's performance and features, we didn't want to question the solution, As the renewal is scheduled for 2024 and I left CCAS d'Aix en Provence in 2023, I have no information on this renewal project,.
[Audio] ANNEXES SIMPLIVITY - KEY FEATURES. ANNEXES SIMPLIVITY - KEY FEATURES.
[Audio] Introduction to Simplivity Simplivity's hyper converged infrastructure integrates : compute storage networking resources into a single, modular system. This eliminates the need for separate hardware components and simplifies the deployment and management of IT infrastructure. With hyperconvergence, organizations can achieve greater agility, scalability, and cost efficiency in their data centers.
[Audio] Key Features Data Efficiency Built-in data deduplication and compression Inline processing that optimizes data before it's written to disk Data Protection Built-in backup and disaster recovery Native data replication between sites VM-centric management and backup policies Rapid backup and restore capabilities Performance All-flash storage configuration Accelerated data optimization Hardware-assisted compression Management VMware vCenter intégration Single management interface VM-centric operations Scalability Scale-out architecture Start small and grow as needed Add nodes without disruption Mix different models in the same cluster Data Services Always-on deduplication and compression Built-in WAN optimization Zero-click disaster recovery Integrated backup capabilities Migration Features SimpliVity Migration Manager for workload mobility Seamless VM migration between nodes Simple data center consolidation capabilities Cost Benefits Reduced datacenter footprint Lower power and cooling requirements Consolidated hardware and software licensing Reduced management overhead.
[Audio] Data Efficiency and Deduplication Simplivity's inline deduplication and compression technology is a key feature that optimizes data efficiency. By identifying and eliminating redundant data at the source, Simplivity reduces storage requirements and improves overall system performance. This not only saves organizations valuable storage space but also reduces costs associated with data backup, replication, and disaster recovery. Less data to transfer translates into faster backup windows, as well as the ability to replicate data over much slower network links..
[Audio] Simplivity's Backup and Disaster Recovery Capabilities Simplivity provides robust backup and disaster recovery capabilities, ensuring the availability and integrity of critical data. With built-in data protection features, organizations can easily create automated backups, replicate data to remote locations, and recover data quickly in the event of a disaster. Simplivity's backup and disaster recovery capabilities minimize downtime and data loss, enabling businesses to maintain continuity and meet their recovery objectives. From a technical architecture point of view, at least 2 units are required to create a SimpliVity environment in order to achieve redundancy, which is the strength of this solution (HA). When IT needs increase, it is simply a matter of adding SimpliVity units to the existing cluster..
[Audio] Simplify a business recovery plan with Rapid DR.
[Audio] Simplivity's Integration with Virtualization Platforms Simplivity seamlessly integrates with popular virtualization platforms, such as VMware and Microsoft Hyper-V. T his enables organizations to leverage their existing virtualization infrastructure while benefiting from Simplivity's advanced data management and protection features. Simplivity's integration with virtualization platforms simplifies data management and enhances overall system performance..
[Audio] Simplivity overview VM Replica Backups Policies Storage Efficiency.