Panne du samedi 29 Octobre MAJ x9

le Dimanche 30 Octobre 2011

Nous avons subi une longue interruption de service. La panne a débuté à 19h45, les sites ont été remontés vers minuit. Nous sommes intervenus dès 19h50, mais la panne était assez grave. 

Nous avons perdu notre serveur de fichier central. Ce genre de machine est très fiable mais en cas de problème, elle est très compliquée à relancer : le reboot peut prendre plusieurs heures.

Nous ne sommes pas arrivés à relancer le serveur de fichier. Aussi, nous avons dû utiliser le serveur de fichier situé dans un autre data center en secours. Cette machine en BackUp nous sert à remonter l'architecture de WMaker en cas de grave problème.
 
Depuis début octobre, nous mettons en place une toute nouvelle architecture, les travaux seront finalisés fin novembre. Cela aurait réduit considérablement la probabilité de ce genre de panne et le temps d'indisponibilité...
 
Nous sommes désolé pour cette interruption de service, pour l'instant on se concentre sur la remise en route des +900 services de l'architecture et notamment les services de mail. 

(Maj 1) 30/10 à 4 h 00 : Le service Mail est ok.

(Maj 2) 30/10 à 6 h 00 : Certains sites n'étaient pas accessibles par leur nom de domaine DNS : problème fixé. 30/10 à 6 h 00.

(Maj 3) 30/10 à 12 h 20 : Nous avons réglé depuis ce matin plusieurs disfonctionnements.

Cette nuit :
Le principal problème que nous rencontrons actuellement c'est les VIDEO. 
Nous sommes intervenu dans la nuit dans le DataCenter de DC1 afin de redémarrer physiquement le serveur de fichier Video cela n'a pas fonctionné. Nous avons basculé sur un serveur de secours situé dans un autre DataCenter à Roubaix.

Actuellement  :
 
Il y a encore pas mal de problème sur les Videos notamment :
 
Upload Video / Photo -> service indisponible
Encodage Video -> service indisponible
Lecture des video -> lenteur épisodique 
 
On a planifier une autre intervention sur le DataCenter de DC1 dans l'après midi,  en attendant on essaie de trouver des solutions softs.

(Maj 4) 30/10 à 14 H 00 

Uplaod des Photos est Ok

(Maj 5) 30/10 à 16 H 00 

Quasiment tous le service à la normale nous avons redémarrer le Serveur fichier principal.
Nous allons essayer de mettre en service. 

(Maj 6) 30/10 à 17 h 40 

La tentative a avorté, ce qui à causé une interruption de back 30 min, revient à notre état initial mais toujours impossible d'envoyer des vidéos.

(Maj 7) 30/10 à 21 h 00 

Nous avons remonté un maximum de services.
Mais on ne peut toujours pas uploader de vidéo.
Demain matin une équipe prend la relève et réglera le problème de ce serveur de fichier avec l'aide OVH.

(Maj 8) 31/10 à 10 h 00

Nous avons profité de la nuit pour déplacer nos backups sur le nouveau serveur de fichier.
Ce serveur devait entrer en service la semaine prochaine.
Nous allons l'utiliser pour relancer les services. 

Nous pensons avoir stabilisé d'ici le début d'après midi.

(Maj 9) 31/10 à 17 h 00

Nous avons mis au point une technique sur le papier. Elle devrait nous permettre de reprendre la main sur le serveur de fichier central. On vient de commencer si cela réussis vous pourrez uploader à nouveau des videos,
en fin de soirée ou demain matin.

 



Fondateur de WMaker et du CampusPlex En savoir plus sur cet auteur