Détails concernant la coupure de ce soir

Nous avons subi plusieurs pannes ce soir. Voici l'enchainement des évènements :

18h43 : problème d'accès au back office.
Dans notre architecture, l'accès au back office est découplé de l'accès aux sites. Le problème de 18h43 n'a pas eu de conséquences sur le trafic de votre site web. En revanche, il n'était plus possible d'accéder au back office, et d'envoyer des emails.
Nous sommes intervenus pour basculer sur le serveur de secours car celui-ci n'a pris naturellement le relai.

19h23 : panne sur l'architecture
A partir de 19h23, une panne générale a affecté l'application. Il était impossible de voir les sites ni de se connecter aux back offices.
En fait, nous avons subi une série d'interruptions de service. En effet, notre système de supervision externe nous indique 14 coupures successives, de 19h23 à 20h46, correspondant à une interruption cumulée de 54 minutes.
En fait, nous avons relancé 14 fois l'architecture, mais celle-ci s'est écroulée à chaque fois.
5 personnes étaient au bureau pour tenter d'identifier la cause du problème.
D'abord, nous avons pensé à un problème d'hébergement, mais nous n'avons rien trouvé de ce coté là. Sur les 1002 services monitorés, seulement une trentaines étaient critiques, signifiant que le problème était ailleurs.

Ensuite, nous avons cherché du coté applicatif. En effet, nous effectuons quotidiennement des mises à jour de l'application. Nous avons donc passé en revue toutes les mises à jour de la journée pour voir si elle étaient la cause du problème. Rien non plus de ce coté là.

Finalement, nous avons cherché s'il pouvait y avoir une cause extérieure au problème. Tout comme nous, ovh (notre hébergeur) tient à jour un site qui informe des travaux qu'ils pratiquement dans leur datacenter. Il semble que nous ayons été impacté par une de leur maintenance. Les switchs de notre suite sont raccordés à Paris 19.

Si on regarde le graph de la bande passante des sites WMaker, on constate une coupure à partir de 19h23, puis notre bande passante a été limitée à 50 Mbit/s, alors qu'à cette heure-ci nous avons une consommation d'environ 200 Mbit/s.

Cela a eu pour effet d'empiler les requêtes de demande de pages, ralentissant fortement le traffic, voire l'interrompant pour la plupart des sites.

Durant cette période de crise, nous avons tenté de vous tenir informé au mieux, au travers du site http://status-wmaker.net. Ce site est totalement indépendant de notre architecture et de notre datacenter. Grâce à lui, nous pouvons communiquer avec vous quel que soit le problème rencontré.

Lorsque vous constatez un dysfonctionnement, n'hésitez pas à vous rendre sur status-wmaker.net. C'est ce que nous avons fait en allant consulter http://travaux.ovh.net

Je m'excuse de cette interruption de service, même si celle-ci a été plutôt subie que provoquée.

Je précise que c'est assez exceptionnel comme panne. Pour information, depuis le début de l'année, pingdom (notre outil de monitoring externe) indique que notre disponibilité était de 99,98% pour tous les sites de l'architecture WMaker, ceci incluant les arrêt planifié pour maintenance.

Nous réfléchissons en permanence à des évolutions de notre système. Nous souhaitons d'ailleurs le faire évoluer pour répartir l'architecture entre différents datacenters. Cette évolution nous permettra de ne plus dépendre des problèmes rencontrés aujourd'hui. Cette transformation est un travail de longue haleine, assez complexe à mener. Les premiers résultats sont attendus pour 2011.