Feedback sur l'interruption de service de jeudi 28/11

le Vendredi 29 Novembre 2019

Les services de GoodBarber et de WMaker ont été perturbés au cours de la journée du 28 novembre à cause d'un incident électrique. Cet incident s'est produit sur l'alimentation générale d'une baie située dans l'un des datacenter qui héberge une partie de notre infrastructure technique.
Le service a été momentanément interrompu, et partiellement dégradé lors de la remise en service, mais aucune donnée n'a été perdue. 
Cela fait maintenant plus de 24 heures que les services fonctionnement parfaitement et normalement. C'est le moment des explications, du bilan et des enseignements, que nous partageons avec vous dans cette note.
Feedback sur l'interruption de service de jeudi 28/11

Détails des évènements

Hier matin, vers 8h30 heure de Paris, un défaut électrique sur l'alimentation d’une baie hébergeant une vingtaine de nos serveurs de calcul s'est produit. Cet incident est apparu sur un équipement d'alimentation électrique mis à notre disposition par notre hébergeur OVH, dans le cadre d'un de nos contrats d'hébergements dans un datacenter parisien. 

Nous avons demandé au technicien OVH d'intervenir pour rétablir le courant dans la baie, ce qui nous a permis de remonter la totalité des services impacté (25% de notre installation) dans l'heure. A 9h30, les services fonctionnaient de nouveau normalement. 

En première hypothèse, OVH a pensé que l'incident était consécutif à une problème survenu sur l'un de leur onduleurs, quasiment au même moment.

La panne a engendré une interruption de service. En revanche, aucune donnée n'a été perdue. Nous dupliquons les données plusieurs fois, de manière persistante et dans des lieux différents. Néanmoins, le service n’aurait pas dû s'interrompre totalement. Il l'a été car nous avons un service de gestion de session qui n'a pas basculé correctement sur une machine dans une autre baie. Si la bascule avait correctement fonctionné, nous aurions évité de downtime.

A 11h30 nous étions entrain de déplacer certains services dans une autre baie quand un second problème d'alimentation est survenu sur la première baie. Ce problème a de nouveau entraîné un downtime de 30 min. Le technicien d'OVH est ré-intervenu une nouvelle fois et à partir de 12h00, l'ensemble des services ont été rétabli.

Par précaution, deux personnes de l'équipe se sont rendues physiquement dans le datacenter où nous avons la baie qui a été impactée par le problème électrique. Elles ont passé 6 heures sur place pour analyser in situ l'ensemble de notre matériel. Tous les équipements concernés ont moins d'un an. Nous utilisons exclusivement du matériel HP, Cisco et APC, dont la fiabilité est éprouvée.
Ne constatant aucune anomalie sur notre matériel, nous avons convenu avec notre hébergeur qu'il procède au remplacement préventif de son équipement électrique qui alimente notre baie.
Une intervention conjointe avec notre hébergeur a eu lieu entre 19h et 21h pour remplacer cet équipement. Cela a pu provoquer des perturbations de très courte durée, sans interruption du service. 

Notre équipe continue a monitorer de près le service mais plus aucune instabilité n'a été relevée depuis 24h.

Ce type de panne fait partie des scenarios les plus compliqués à gérer. Notre objectif est que notre architecture soit capable de tolérer ce type d'incident sans interruption du service. Nous allons, à froid, réévaluer nos systèmes pour garder le service up même en cas de défaut d’alimentation sur 50% de l'architecture. 


Jerome Granados
Jérôme s'occupe de la promotion de WMaker. Il accompagne les prospects dans la découverte de la... En savoir plus sur cet auteur


Vos commentaires

1.Posté par Chris Halusiak le 02/12/2019 11:26 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour,
Il n'y a actuellement aucun feedback de vos services or depuis vendredi, tout le WE et aujourd'hui lundi 2/12 encore, notre site et le back office sont inaccessibles. Pouvez-vous nous tenir informés. Merci.
Cordialement,

2.Posté par Jerome PIETRI le 02/12/2019 11:40 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour

@chris Rien a voir vous avez oublié de renouveler votre nom de domaine
Updated Date: 2019-11-30T12:15:19Z


Cdlt
Jerome PIETRI

3.Posté par Chris Halusiak le 02/12/2019 11:57 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour,
Merci pour votre réponse mais pas du tout. J'ai vérifié. ABCfeminin.com est renouvelé jusqu'au 7/06/2020. Le 30 novembre, c'était ABCfeminin.fr qui devait être renouvelé et cela a bien été fait (?).
Auriez-vous une autre explication ?
Dans l'attente, Cordialement,

4.Posté par Chris Halusiak le 02/12/2019 12:49 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour,
Urgent : le nom de domaine n'étant pas en cause, toujours pas d'accès ni au site, ni au back office.
Dans l'attente,
Cordialement,
Chris Halusiak

5.Posté par Jerome PIETRI le 02/12/2019 13:28 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
@christ Bien sur que c'est le nom de domaine il n'a pas été renouvelé, nous l'avons désinstallé .
https://www.wmaker.net/ABCfemin1n/




6.Posté par Chris Halusiak le 02/12/2019 13:38 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Je ne peux pas vous adresser de pièce jointe sur ce blog mais je peux vous confirmer que les dates de renouvellement effectués :
7/06/2019 pour ABCfeminin.com
30/11/2019 pour ABCfeminin.fr sont bien exactes.
Le site étant sur le nom de domaine ABCfeminin.com, rien avoir avec la date du 30 novembre.
*Que signifie cette désinstallation ?
Dans l'attente,
Cordialement,

7.Posté par Chris Halusiak le 02/12/2019 14:29 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Je sais que vous pouvez avoir d'autres urgences à traiter mais pourriez-vous me tenir informée suite aux échanges qui précèdent ? Merci.
Dans l'attente,
Cordialement,

8.Posté par Jerome PIETRI le 02/12/2019 14:49 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
@christ nous avons ouvert un thread dans le support, allez le lire

9.Posté par Chris Halusiak le 02/12/2019 15:08 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Ce lien renvoie vers cette même page sur laquelle nous avons cet échange. Je ne vois aucune réponse à ma question. Vous indiquez le 29/11 : "Cela fait maintenant plus de 24 heures que les services fonctionnement parfaitement et normalement."
ABCfeminin.com est interrompu depuis samedi ! Vous me donniez précédemment comme raison le non renouvellement du nom de domaine, ce qui n'est PAS LE CAS.
Comprenez l'urgence où je suis de voir le site réinstallé. S'il y a une autre raison, merci de m'en faire part rapidement. Merci.
Dans l'attente,
Cordialement,

10.Posté par Jerome PIETRI le 02/12/2019 15:13 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
@christ
https://www.wmaker.net/ABCfemin1n/admin/thread/443493/

11.Posté par abbssm le 21/02/2020 08:09 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Message modéré