Feedback sur l'interruption de service de jeudi 28/11

Les services de GoodBarber et de WMaker ont été perturbés au cours de la journée du 28 novembre à cause d'un incident électrique. Cet incident s'est produit sur l'alimentation générale d'une baie située dans l'un des datacenter qui héberge une partie de notre infrastructure technique.
Le service a été momentanément interrompu, et partiellement dégradé lors de la remise en service, mais aucune donnée n'a été perdue.
Cela fait maintenant plus de 24 heures que les services fonctionnement parfaitement et normalement. C'est le moment des explications, du bilan et des enseignements, que nous partageons avec vous dans cette note.

Détails des évènements

Hier matin, vers 8h30 heure de Paris, un défaut électrique sur l'alimentation d’une baie hébergeant une vingtaine de nos serveurs de calcul s'est produit. Cet incident est apparu sur un équipement d'alimentation électrique mis à notre disposition par notre hébergeur OVH, dans le cadre d'un de nos contrats d'hébergements dans un datacenter parisien.

Nous avons demandé au technicien OVH d'intervenir pour rétablir le courant dans la baie, ce qui nous a permis de remonter la totalité des services impacté (25% de notre installation) dans l'heure. A 9h30, les services fonctionnaient de nouveau normalement.

En première hypothèse, OVH a pensé que l'incident était consécutif à une problème survenu sur l'un de leur onduleurs, quasiment au même moment.

La panne a engendré une interruption de service. En revanche, aucune donnée n'a été perdue. Nous dupliquons les données plusieurs fois, de manière persistante et dans des lieux différents. Néanmoins, le service n’aurait pas dû s'interrompre totalement. Il l'a été car nous avons un service de gestion de session qui n'a pas basculé correctement sur une machine dans une autre baie. Si la bascule avait correctement fonctionné, nous aurions évité de downtime.

A 11h30 nous étions entrain de déplacer certains services dans une autre baie quand un second problème d'alimentation est survenu sur la première baie. Ce problème a de nouveau entraîné un downtime de 30 min. Le technicien d'OVH est ré-intervenu une nouvelle fois et à partir de 12h00, l'ensemble des services ont été rétabli.

Par précaution, deux personnes de l'équipe se sont rendues physiquement dans le datacenter où nous avons la baie qui a été impactée par le problème électrique. Elles ont passé 6 heures sur place pour analyser in situ l'ensemble de notre matériel. Tous les équipements concernés ont moins d'un an. Nous utilisons exclusivement du matériel HP, Cisco et APC, dont la fiabilité est éprouvée.
Ne constatant aucune anomalie sur notre matériel, nous avons convenu avec notre hébergeur qu'il procède au remplacement préventif de son équipement électrique qui alimente notre baie.
Une intervention conjointe avec notre hébergeur a eu lieu entre 19h et 21h pour remplacer cet équipement. Cela a pu provoquer des perturbations de très courte durée, sans interruption du service.

Notre équipe continue a monitorer de près le service mais plus aucune instabilité n'a été relevée depuis 24h.

Ce type de panne fait partie des scenarios les plus compliqués à gérer. Notre objectif est que notre architecture soit capable de tolérer ce type d'incident sans interruption du service. Nous allons, à froid, réévaluer nos systèmes pour garder le service up même en cas de défaut d’alimentation sur 50% de l'architecture.