Explications sur l'incident de cette nuit

le Vendredi 22 Septembre 2017 I 6 Commentaires

De 2:00 AM à 09:30 AM CEST, WMaker et GoodBarber ont été fortement perturbés.

Notre équipe en charge des serveurs, 5 personnes (Greg, Pierre-Laurent, Sébastien, Jérôme et Dumè) était sur Paris toute la semaine afin de mettre en service de nouveaux équipements dans un second data center, Global Switch, situé en périphérie de Paris. Cela fait partie d'un projet d'extension de notre infrastructure, initié depuis plusieurs mois par l'équipe technique, sur lequel nous avons prévu de communiquer une fois le déploiement complet achevé. Cette intervention n'est pas liée au problème que nous avons rencontré cette nuit.

Toutefois, paradoxalement, la présence de nos ingénieurs à Paris à beaucoup ralenti notre capacité d'intervention, car ils étaient sur le chemin du retour vers Ajaccio durant l’incident. De plus, pour effectuer l’intervention à Global Switch, nous avons suspendu une partie de notre système d'alerte. Cela a engendré plusieurs heures de retard pour identifier le dysfonctionnement. Nos clients dans le pacifique nous ont signalé le problème via message privé dans Facebook et Twitter.

Parallèlement à l'intervention chez Global Switch, nous avons effectué dans notre data center DC1, situé lui dans le 19ème arrondissement de Paris, une viste de routine. Nous nous sommes rendu compte lors de l’inspection d’une machine que APC-21, un des systèmes de gestion de l'alimentation (PDU), rencontrait un dysfonctionnement, au niveau de son système de management à distance. 

Nous avons commandé un nouveau matériel auprès de notre fournisseur et nous l'avons installé pour remplacer APC-21. Nous avons rebranché sur ce nouveau matériel, APC-24, toutes les machines qui étaient alimentées par APC-21, à l'exception de switch-nas11. 

Les PDU sont des systèmes conçus pour continuer d'alimenter les machines même si leur système de management est H.S. C'est la raison pour laquelle nous n'avons pas débranché switch-nas11 d'APC-21. Si nous l'avions fait, cela aurait engendré un downtime conséquent. Il était hors de question de faire ce genre de manipulation dans l'urgence, sans planifier l'intervention et prévenir nos utilisateurs.

Dans la nuit, pour une raison encore inconnue, APC-21 a cessé d'alimenter switch-nas11. Lorsque le technicien d'OVH est venu pour déplacer l'alimentation de switch-nas11 de APC-21 vers APC-24, le switch n'a pas booté. Il s'agit d'un switch Cisco. Ce matériel est réputé pour sa fiabilité. Nous n'avons pas encore d'explication quant à son dysfonctionnement.

Nous avons indiqué au technicien d'utiliser un switch de secours qui étaient en attente dans la baie. L'installation de ce switch a rallongé l'intervention car il a fallu re-cabler toutes les machines dans un premier temps. Lorsque le switch de backup a été allumé, nous avons constaté un problème sur deux cartes réseaux du serveur principal (master sql). Dans un second temps, il a donc fallu ré-écrire toutes les règles de routage. Il est fort probable que le problème sur APC-21 ait entrainé les pannes en cascade sur switch-nas11 et les 2 cartes réseaux. 

Depuis 9:30AM, tous les services sont up. Si nous n'avions pas remplacé APC-21 hier matin, la panne qu'il a subi cette nuit aurait pu avoir des conséquences encore plus graves. Une grande partie de la baie aurait cessé d'être alimentée de façon brutale. Cela aurait pu être terrible (pertes de données temporaire, machines hors d'usage, ...) et provoquer un downtime encore plus long (replacement de machines, re-configuration, reprise de backups de données, ...)

Nous allons planifier dans les semaines à venir une intervention complémentaire pour re-construire dans la baie le stock de matériel de backup. Nous allons également en profiter pour anticiper le remplacement des matériels de la même génération que ceux qui ont été défectueux cette nuit.


Jerome Granados
Jérôme s'occupe de la promotion de WMaker. Il accompagne les prospects dans la découverte de la... En savoir plus sur cet auteur


Vos commentaires

1.Posté par FCrozier le 22/09/2017 11:37 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Merci pour le retour d'info Jérôme. Pourriez-vs svp checker le serveur de plugin qui semble être toujours down en ce moment ?

Merci
FC

2.Posté par FCrozier le 22/09/2017 12:00 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Edit : Tout est revenu à la normale.

Merci ;-)
FC

3.Posté par Nathalie le 22/09/2017 18:04 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Merci pour ces explications, elle sont un peu compliquées pour les néophytes, mais il semble que la situation sot rétablie, c'est le principal :-) ...à Tahiti on était un peu dans la mouise....

4.Posté par Momar Dieng le 25/09/2017 11:01 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour. Merci pour ce souci de transparence à l'endroit de vos parteneaires-clients comme moi. Bon courage.

5.Posté par MC le 25/09/2017 15:02 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Merci pour les infos ... très techniques pour la plupart d'entre nous, mais ça a le mérite de répondre à nos questions.
Par contre ce serait bien aimable à vous d'envoyer un tweet ou un message sur FB au moment de la panne... on s'est sentis abandonnés et dans le noir absolu pendant plusieurs heures.
J'espère que vous y penserez si ça devait se reproduire.
Merci!

6.Posté par Serge SENTUBERY le 25/09/2017 16:00 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Merci pour les infos... auxquelles je n'ai absolument rien compris mais que j'ai quand même lues jusqu'à la fin ;)

J'abonde dans le sens de certains commentaires pour demander - si possible- le rétablissement du compte https://twitter.com/statuswm ou de tout autre outil qui serait indépendant de WM de façon à ne pas rester dans l'inconnu.

C'est qu'avec votre taux de "non service" insignifiant pour nous, utilisateurs, vous nous avez donnés des "mauvaises habitudes" ! ;)

Merci pour ces efforts pédagogiques qui auront certainement régalé les plus férus d'entre nous.

Bien cordialement

Nouveau commentaire :
Facebook Twitter