Détails concernant la coupure de ce soir

Sébastien Simoni le Lundi 26 Avril 2010

Détails concernant la coupure de ce soir
Nous avons subi plusieurs pannes ce soir. Voici l'enchainement des évènements :

18h43 : problème d'accès au back office.
Dans notre architecture, l'accès au back office est découplé de l'accès aux sites. Le problème de 18h43 n'a pas eu de conséquences sur le trafic de votre site web. En revanche, il n'était plus possible d'accéder au back office, et d'envoyer des emails.
Nous sommes intervenus pour basculer sur le serveur de secours car celui-ci n'a pris naturellement le relai.

19h23 : panne sur l'architecture
A partir de 19h23, une panne générale a affecté l'application. Il était impossible de voir les sites ni de se connecter aux back offices.
En fait, nous avons subi une série d'interruptions de service. En effet, notre système de supervision externe nous indique 14 coupures successives, de 19h23 à 20h46, correspondant à une interruption cumulée de 54 minutes.
En fait, nous avons relancé 14 fois l'architecture, mais celle-ci s'est écroulée à chaque fois.
5 personnes étaient au bureau pour tenter d'identifier la cause du problème.
D'abord, nous avons pensé à un problème d'hébergement, mais nous n'avons rien trouvé de ce coté là. Sur les 1002 services monitorés, seulement une trentaines étaient critiques, signifiant que le problème était ailleurs.

Ensuite, nous avons cherché du coté applicatif. En effet, nous effectuons quotidiennement des mises à jour de l'application. Nous avons donc passé en revue toutes les mises à jour de la journée pour voir si elle étaient la cause du problème. Rien non plus de ce coté là.

Finalement, nous avons cherché s'il pouvait y avoir une cause extérieure au problème. Tout comme nous, ovh (notre hébergeur) tient à jour un site qui informe des travaux qu'ils pratiquement dans leur datacenter. Il semble que nous ayons été impacté par une de leur maintenance. Les switchs de notre suite sont raccordés à Paris 19.

Si on regarde le graph de la bande passante des sites WMaker, on constate une coupure à partir de 19h23, puis notre bande passante a été limitée à 50 Mbit/s, alors qu'à cette heure-ci nous avons une consommation d'environ 200 Mbit/s.

Cela a eu pour effet d'empiler les requêtes de demande de pages, ralentissant fortement le traffic, voire l'interrompant pour la plupart des sites.

Durant cette période de crise, nous avons tenté de vous tenir informé au mieux, au travers du site http://status-wmaker.net. Ce site est totalement indépendant de notre architecture et de notre datacenter. Grâce à lui, nous pouvons communiquer avec vous quel que soit le problème rencontré.

Lorsque vous constatez un dysfonctionnement, n'hésitez pas à vous rendre sur status-wmaker.net. C'est ce que nous avons fait en allant consulter http://travaux.ovh.net

Je m'excuse de cette interruption de service, même si celle-ci a été plutôt subie que provoquée.

Je précise que c'est assez exceptionnel comme panne. Pour information, depuis le début de l'année, pingdom (notre outil de monitoring externe) indique que notre disponibilité était de 99,98% pour tous les sites de l'architecture WMaker, ceci incluant les arrêt planifié pour maintenance.

Nous réfléchissons en permanence à des évolutions de notre système. Nous souhaitons d'ailleurs le faire évoluer pour répartir l'architecture entre différents datacenters. Cette évolution nous permettra de ne plus dépendre des problèmes rencontrés aujourd'hui. Cette transformation est un travail de longue haleine, assez complexe à mener. Les premiers résultats sont attendus pour 2011.




Vos commentaires

1.Posté par green man le 26/04/2010 22:07 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Paris 19. a rue riquet :) en sous sol on sait en face du commissariat sarkozy est par la ou koi

2.Posté par Gérald Vidamment le 26/04/2010 23:42 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Merci pour ces explications et cette communication !

3.Posté par Mohamed Halhoul le 27/04/2010 01:34 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
merci pour les explications
http://www.nador24.com

4.Posté par LE PRIOL Alexandre le 27/04/2010 05:12 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
C'est la technologie ca arrive, et encore chez vous c'est pas souvent c'est pardonnable.

Bravo pour votre communication et votre transparence.

19h23 encore au bureau? Les Gars reposez vous de temps en temps quand même ;)


5.Posté par Longour Michèle le 27/04/2010 08:45 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Oui, merci pour tous ces détails et votre réactivité quand même... C'est vrai que c'est la première fois que ça arrive depuis qu'on est avec vous. Plus aucun membre de l'équipe de rédaction n'arrivait à se connecter !
Et pendant qu'on allait diner, vous avez trouvé le truc, vraiment on s'est encore dit que vous étiez réactifs pour des Corses.

6.Posté par Editoweb le 27/04/2010 09:35 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bravo pour cette exceptionnelle transparence ainsi que pour la qualité et le soin minutieux de vos relations avec vos clients.

7.Posté par chris le 27/04/2010 12:24 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Cette transparence nous conforte dans la confiance que nous accordons à votre savoir-faire.
Bravo pour cette gestion de la "crise".

8.Posté par Marcel Lévy le 27/04/2010 12:35 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour
Bravo pour la réactivité mais il est vrai qu'entre réparer et communiquer... Il a une priorité à choisir. Perso, je préfère réparer ! De fait, le SSD n'est à jour que bien après. Sur l'instant, le blocage est "muet" car nous ne savons pas si la panne est chez nous, chez Wmaker ou ailleurs. Pourrait-on imaginer une sorte d'alerte automatique par mail, une liste des clients, avec le simple message : "soucis en cours actuellement. Nous intervenons".
Un clic sur un bouton pour l'info en temps réel.
C'est juste une idée
Amitiés
Marcel

9.Posté par MICHELET le 27/04/2010 14:05 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour,
Aller sur Status W.M n'est pas toujours le premier réflexe.
Il est sûr que si on était prévenu instantanément;"alerte automatique" par exemple, on se déconnecterai aussitôt et de ce fait moins de requêtes => pas de surcharge réseau pour le redémarrage.
Bonne réflexion. on vous fait confiance.
Amicalement
Albert

10.Posté par PAYAN le 27/04/2010 17:30 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bravo pour l'efficacité !!! J'avoue que j'ai été étonnée de la rapidité de votre réaction !
Vous êtes des "pros"... mais des pros qui se sentent concernés et veulent offrir un service d'excellence... Aujourd'hui, ça ne court pas les rues et il est important de pouvoir s'appuyer sur des personnes comme vous !
Encore Bravo et merci !

11.Posté par ve le 27/04/2010 21:34 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Je retiens l'excellente idée de Marcel et la fais mienne : Pourrait-on imaginer une sorte d'alerte automatique par mail, une liste des clients, avec le simple message : « soucis en cours actuellement. Nous intervenons » ?

12.Posté par Sébastien Simoni le 27/04/2010 22:34 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Ok va réfléchir à un système d'alerte.
Un compte twitter sur l'état de l'architecture pourrait donner de l'info en cas de panne
mais également sur le quotidien via un tweet par jour.

Vous en pensez quoi ?

13.Posté par ve le 27/04/2010 22:36 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Perso, je suis sur twitter, donc ça me va. Mais pas forcement tout le monde

14.Posté par Julien Landfried le 27/04/2010 22:43 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
@Sébastien,
excellente idée :-)
et pour ceux qui ne sont pas sur twitter, il est toujours possible de s'abonner au flux RSS du compte twitter (quitte à le faire passer par Feedburner)
pour le reste, je ne crois pas qu'il existe de service "twitter to mail".
est-ce que la brique "RSS to mail" de xfruits pourrait marcher pour vos clients qui préfèrent le mél ?
bon courage à tous,
Julien

15.Posté par Marcel Lévy le 28/04/2010 05:45 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour Sebastien

Oui Twitter est une idée aussi. Il suffira de s'abonner à vos twits. Mais c'est vrai que tout le monde n'est pas sur twitter. D'où cette idée de mail automatique. On a un système d'alerte un peu identique par mail sur notre NAS qui prévient à la moindre panne. C'est très utile
Bon courage
Amitiés
Marcel