Business Continuity et Disaster Recovery d’une infrastructure virtuelle

Bon­jour,

 

Afin de pou­voir vous par­ler de VMware Site Recov­ery Man­ager, j’ai trouvé intéres­sant de faire une intro­duc­tion aux dif­férents con­cepts qui régis­sent une reprise d’activité.

Pre­mière­ment, le BCP (Busi­ness Con­ti­nu­ity Plan­ning) ou BCM (Busi­ness Con­ti­nu­ity Man­age­ment) est un proces­sus de plan­i­fi­ca­tion proac­tif qui assure des ser­vices ou des pro­duits essen­tiels lors d’une inter­rup­tion. Il doit per­me­t­tre de met­tre en place des procé­dures afin d’assurer la con­ti­nu­ité et la survie de l’entreprise en respec­tant les oblig­a­tions légales ou autres d’une organisation.

A tous les niveaux, seront inté­grés des notions de ges­tion d’incidents, d’opérations et de com­mu­ni­ca­tions, sou­vent oubliées, ce qui peut vite générer un déficit d’image, même si le cas a été réso­lus dans les meilleures conditions.

Le BCP n’englobe pas seule­ment l’IT, mais égale­ment la ges­tion des employés, avec la prise en compte de risques tel que les pandémies, les déplace­ments et les moyens de com­mu­ni­ca­tions, après une cat­a­stro­phe naturelle.

 

Il est com­posé du Busi­ness Con­ti­nu­ity Plan, qui va offrir un pour­cent­age de disponi­bil­ité, selon la crit­ic­ité de l’application, sou­vent lié aux SLA (Ser­vice Level Agree­ment).

De là, va découler des solu­tions de Haute Disponi­bil­ité (HA), d’un BRP (Busi­ness Resump­tion Plan), qui va gérer la reprise d’activité, après la perte d’un ser­vice (backup / restaure) et finale­ment en cas de désas­tre majeur du DRP (Dis­as­ter Recov­ery Plan).

 

Les solu­tions de DRP sont sou­vent con­fon­dues avec celle du Busi­ness Con­ti­nu­ity Plan, pour­tant ce ne sont pas les même procé­dures, métriques, et out­ils, bien que de plus en plus des solu­tions offre les deux, tel que la vir­tu­al­i­sa­tion de stock­age (Fal­con­stor, Dat­a­core, Metro­clus­ter) et le CDP (Con­tin­u­ous Data Protection).

 

La Haute disponibilité :

Pour la par­tie HA (High Avail­abil­ity), elle est mesurée à l’aide du pour­cent­age de disponi­bil­ité par année.

 

Evidem­ment, plus il y a de 9, der­rière la vir­gule, plus la solu­tion est com­plexe et couteuse.

 

C’est dans ce cas-là, que la vir­tu­al­i­sa­tion sort son épin­gle du jeu et offre d’une manière sim­ple de la Haute Disponi­bil­ité hard­ware, à l’aide d’un stock­age partagé et de fonc­tion­nal­ité de redé­mar­rage des VMs, per­dues lors du crash de l’hyperviseur.

Autres solu­tions de HA, les clus­ters de serveurs comme le MSCS (Microsoft Clus­ter Ser­vice) et plus récem­ment le Failover Clus­ter pour Win­dows 2008 R2, qui génèrent sou­vent plus de prob­lèmes qu’ils n’en résolvent…

La mode actuelle étant de met­tre en place le clus­ter, au niveau appli­catif, avec sa pro­pre répli­ca­tion, à l’image du DAG (Data­base Avail­abil­ity Group)  de Microsoft Exchange 2010.

 

Le BRP ET DRP

 

Lors de la perte d’un ser­vice ou d’un dat­a­cen­ter, on va utiliser des métriques tel que :

Le RPO (Recov­ery Point Objec­tive) perte de don­nées définie comme étant le max­i­mum accept­able, en cas de crise, qui va dépen­dre de la répli­ca­tion et des back­ups des données.

 

Le RTO (Recov­ery time Objec­tive) délai prédéfini dans lequel les proces­sus cri­tiques doivent être rétab­lis. Toutes vos appli­ca­tions et ser­vices n’auront pas for­cé­ment le même RTO, en cas de DRP. Cela pourra aller de quelques min­utes à plusieurs semaines.

 

 

Le BRP (Busi­ness Resump­tion Plan) est sim­ple­ment votre procé­dure de restau­ra­tion d’un serveur, à l’aide de vos back­ups ou snap­shots, qui vous per­me­t­trons de restau­rer vos don­nées et services.

On va utiliser ce terme lors que l’on a perdu 1 ser­vice qui n’a pas de solu­tion de HA et donc il fau­dra, selon le type de crash, changer le hard­ware défectueux ou restau­rer la don­née voire l’entier de l’OS et des données.

D’expérience, si l’on redé­ploye une VM et que l’on fait un full restaure, ceci pour autant qu’il n’y a pas des TB de don­nées, il est pos­si­ble de remet­tre en pro­duc­tion un serveur en moins de deux heures.

 

Finale­ment le DRP, qui est une procé­dure lié à un crash majeur dans l’entreprise. Il existe deux types de désas­tre, le clin­ique, qui est prin­ci­pale­ment lié à l’erreur humaine et aux défauts d’infrastructures et les cat­a­stro­phes naturelles.

Voici un slide du VMworld 2011 représen­tant les dif­férents cas de figures.

 

 

Cela va exiger un site dis­tant, en principe à un min­i­mum d’une soix­an­taine de Km de l’entreprise, afin de garan­tir la sécu­rité physique des don­nées. C’est égale­ment dans ce type de cas que le Cloud IaaS peu­vent offrir un solu­tion sim­ple et élastic.

VMware prévoit déjà d’intégrer SRM et vSphere Repli­ca­tion dans leur outil vCloud Direc­tor.

 

C’est lors de la perte d’un dat­a­cen­ter que l’on va voir si les procé­dures sont com­plètes et bien réfléchies.

En principe, si elles ont été testées, une à deux fois par année, il ne devrait pas y avoir de surprise.

Ces process devraient être fait de telles manières que n’importe quel per­son­nel de l’IT, soit capa­ble de remon­ter la pro­duc­tion, même si c’est un sous-traitant, qui ne con­nait pas l’infrastructure. Sacré pari !

 

Une fois de plus la vir­tu­al­i­sa­tion per­met de met­tre en place de solu­tions de DRP sim­ples et effi­caces, à l’aide de la répli­ca­tion des baies de stock­age ou d’applications tiers tel que Weeam, vSphere Repli­ca­tion et bien­tôt Hyper-V Replica avec Win­dows 8.

C’est là que VMware SRM (Site Recov­ery Man­ager) va ren­trer en jeu et per­me­t­tre une reprise de pro­duc­tion extrême­ment rapide, sur le site DR.

Pour les serveurs physiques, des out­ils comme Dou­ble Take, Stor­age Fon­da­tion, Fal­con­stor ou Dat­a­core per­me­t­tront de répli­quer et représen­ter des LUN à des serveurs de spare, sur le site distant.

 

Cet arti­cle se veut une intro­duc­tion et vul­gar­isa­teur, à ces dif­férents con­cepts et n’est évidem­ment pas exhaus­tif, si vous avez des remar­ques et com­plé­ments d’informations, c’est avec plaisir que je vous laisse ajouter des com­plé­ments à cette article.

Il existe pass­able­ment de doc­u­men­ta­tions et normes, qui régis­sent leur mise en place, notam­ment la norme ISO/PAS22399:2007, qui est un con­sen­sus des normes internationales.

 

 Bon BCM

 

A pro­pos de

Archi­tect vir­tu­al­i­sa­tion, stock­age et système.

VMware vEx­pert 2012 

VCP, VCI, MCITP Ent & Virtu, MCSE Pri­vate Cloud, NetApp NCDA & NCIE

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

Les balises HTML ne sont pas autorisés.