Compte-rendu des opérations de cette nuit 1 novembre 2011 Maj x 2

le Mardi 1 Novembre 2011

Je vais vous expliquer les choses techniquement et de la manière le plus exhaustive possible. En tout cas, de la façon dont j'aimerais qu'on me les explique en tant que client.
 
Nous rencontrons plusieurs problèmes qui, cumulés, nous compliquent la tâche.
 
Up-load vidéo :
Nous avons trouvé une solution pour rétablir l'up-load vidéo. Cela nécessite la modification de l'application ; ça prendra la journée. Une fois la modification effectuée, les vidéos pourront être lues depuis plusieurs serveurs. Actuellement, les vidéos sont lues depuis le serveur de back-up chez OVH. Cela nous permettra de réparer les volumes de disques défectueux du serveur de fichiers n°1. Nous disposons sur place d'une quarantaine de disques neufs dans leurs emballages (Seagate ES 2To). Adieu les disques Green de WesternDigital qui sont la cause de tous nos problèmes...
 
Opération data center / technicien OVH :
Cette nuit, nous avons demandé au technicien d'OVH d'intervenir sur notre architecture afin de rétablir l’up-load sur les vidéos. L'opération consistait à retirer un ensemble de plusieurs pools de disques afin de permettre à la machine de redémarrer. Etant donné qu'il s'agit de très grosses machines (48 disques), les checks de disque empêchaient le redémarrage.
 
Nous disposons de deux gros serveurs de ce type, un dans chaque baie, identifié par des étiquettes en façade et sur le panneau arrière. L'opérateur d'OVH n'a pas retiré les disques dans le bon serveur, mais dans le serveur de fichiers n°2. :-( 
 
Cela a eu pour conséquence de nous couper de notre deuxième serveur de fichiers central. Nous nous en sommes rendus compte quasiment immédiatement, nous avons pu contacter le technicien au téléphone qui a reconnecté les disques. Cela a provoqué une coupure du service de 15 minutes vers 0h40 cette nuit. Il y a eu ensuite beaucoup de travail pour l'équipe car nous avons dû remonter des machines virtuelles et surtout traiter un gros problème SQL…
 
Resynchronisation base de donnée :
Un défaut sur un serveur de données a entrainé une perte de désynchronisation sur l'ensemble des serveurs SQL. En temps normal, 6 de serveurs de base de données sont en réplication mutuelle, avec les mêmes données partout. Cette nuit, l'application était en ligne, mais les données n'étaient plus cohérentes d'une base à l'autre. Nous avons à l’heure actuelle, relancé 3 serveurs de base de données, on continu... Cette situation est assez exceptionnelle, cela nous est arrivé une fois en 2006 pendant la nuit de Noël. Pour se prémunir de ce genre de risque, une photo de la base est faite tous les jours à 6h00 du matin ; nous stockons ces images de la base chaque jour avec 1 mois d'historique. 
 
Nous avons pu garder les sites actifs. Seuls les back-offices ont été mis en maintenance de 4h00 à 6h30 du matin. Heureusement, nous n'avons pas eu besoin d'utiliser ce back-up. L'un des serveurs de bases de données avait été mis en stand-by hier à 19h00. Nous sommes repartis de cette base pour remonter des serveurs de base de données cohérents.  En revanche,  les modifications (Article, Photo ...) entre 19h00 et 3h00 du matin n’ont pas été sauvegardé . Tout le reste est en ligne.
 
Pour finir :
Nous avons bien conscience que cela fait beaucoup d'incidents en trois jours. Nous faisons le maximum pour revenir à une situation stable. Nous avons organisé un roulement des équipes pour résoudre au plus vite les problèmes. Une fois cet épisode terminé, nous allons modifier plusieurs aspects de notre organisation. Le seul point positif, c'est que nous avons réussi à limiter l'interruption de service à 15 minutes, cette nuit. Nous pensons raisonnablement rouvrir l'up-load des vidéos d'ici mercredi matin. Une fois que nous serons venus à bout de tout cela, je vous proposerai une compensation commerciale. Mais là on se concentre  totalement sur les problèmes techniques. Je ferai un point en début d’après midi.

Maj 15h30 01/11 :
- Site : Temps de génération moyen des pages sous les >500 ms, c'est un peu plus lent que d'habitude mais la valeur s'approche de la normale. 
- WebTV : le lancement des videos est toujours lent, système Uplaod progress bien samir donnera des détails en commentaire de la note. 

Merci pour vos soutiens nombreux, On lache rien !!!! 

Maj 00h00 01/11 :
- Site : temps de génération moyen des pages 280 ms.
- WebTV : Lancement des videos est normal, Upload des videos actif si vous avez votre propre domaine !!!
 


Sébastien Simoni
Fondateur de WMaker et du CampusPlex En savoir plus sur cet auteur


Vos commentaires
Du plus récent au plus ancien | Du plus ancien au plus récent

24.Posté par gallay le 01/11/2011 20:48 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
il faut arrêter de les plaindre, ce sont nos prestataires que nous payons pour une prestation qui souffre de nombreux problèmes depuis longtemps endémiques et structurels qui rendent nos sites défaillants.la sanction du marché arrive.

23.Posté par jptarot le 01/11/2011 17:48 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour,
Avant tout, bon courage. Sinon, il reste encore des problèmes sur l'envoie d'emails ?
Je recois ca à chaque fois...
Certains des destinataires ou tous les destinataires n'ont pas reçu votre message.

Objet : Hola
Date : 01/11/2011 17:42

Impossible de contacter le(s) destinataire(s) suivant(s) :

'Irina Shostak' le 01/11/2011 17:42
503 Valid RCPT command must precede DATA

22.Posté par Marcel Levy le 01/11/2011 17:44 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour

Désolé de revenir sur le sujet mais les NL qui seront envoyées demain matin seront-elles impactées par ces soucis techniques ?
Merci de votre réponse
Amitiés
ML

21.Posté par perraut francois le 01/11/2011 17:37 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
ont ne comprend pas tout ... ONT est une faute de frappe ...

20.Posté par Nathalie MONTELLE le 01/11/2011 17:34 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Merci pour cet engagement et la qualité de votre travail, même si nous sommes un peu plus impacté à Tahiti compte tenu que nos journées sont vos nuits ;-)
Donc pouvez vous me confirmer que tous les articles que nous avons mis en ligne depuis le 31/10 à 7h du matin chez nous ( 19h chez vous), jusqu'à 18heures chez nous - (le 01/11 6h du matin chez vous) sont perdus?
Sinon la news letter que nous avons envoyé le 31/10 à 6h30 (18h30 chez vous) est arrivée 7 fois:, le 31/10 à 13h50, 13h58, 17h 17, 19h25, 23h23, puis 23h24, puis encore le 01/11 à 00h59 (vos horaires). Nous avons reçu des lettres de mécontentement, et j'espère qu'elles ne seront pas ré-expediées une fois de plus. En vous remerciant
Bon courage encore et merci à vous
Nathalie

19.Posté par perraut francois le 01/11/2011 17:34 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
bonsoir .. Les gars ont ne comprend pas tout ce que vous dites ...mais le dernier problème est l'upload .. on se grouille un peu SVP ... Quelques nouvelles de la Réunion ou le gouvernement a envoyé 2 avions bombardier .. qui arrivent demain (mercredi ) .. quand on sera entrain d'uploader !!!!

18.Posté par philippe le 01/11/2011 18:24 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Merci à toute l'équipe pour le travail accompli et pour la transparence faite ici sur le blog.

On peut raler, pester, etc... nous avons la partie la plus facile, et bien d'autres sociétés ou prestataires n'auraient pas été aussi réactive.

Bravo et encore un grand MERCI :)

et pour Paris, pourquoi pas... vous nous amènerez un peu de vin Corse ? :)

17.Posté par Jean-François Charlot le 01/11/2011 17:04 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour,

juste ce petit mot d'encouragement et toute ma confiance renouvellée.
Cordialement

www.galeriefrancoiseestran.com
www.les-graveurs-associes.com
www.collectif2004images.org
www.reseau-culture-haiti.org
www.courbevoie-sports-football.com
www.votrefootball.com

et d'autres... en attente.

16.Posté par Samir AMZANI le 01/11/2011 15:58 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Le mode load balancing est activé désormais sur le Player, ça nous permet de soulager la liaison entre notre datacenter et le serveur NAS OVH qui maleuresement nous brident à 100Mo/s!.

On attaque la deuxième partie concernant l'activation d'upload sur le NAS Local, qui demande pas mal de changement au niveau de notre appli, surtout le développement d'un wrapper de fichiers. qui sera la base de nos développement futures.

C'est vrai que cette panne vous impacte, mais personnellement je la vois autrement et positivement, car dans l'avenir (qu'on a prévu) tous vos données seront dans le cloud, et on vient de poser la première pierre pour ce développement, qui a commencé pendant cette panne.


15.Posté par Ervé.Do le 01/11/2011 14:47 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Une rencontre sur Paris ? Yep ! Je serais présent pour vous rencontrer, en guise d'encouragement !
Cordialement !

14.Posté par Olivier Oudon le 01/11/2011 14:43 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Si vous modifiez l'appli upload video merci de conserver le mode Bypass ;)

Super l'idée la rencontre sur Paris on fera le voyage c'est certain !

Et bon courage à toutes et tous, vous gardez notre confiance à 2000% vous faites un super boulot !

13.Posté par Jerome PIETRI le 01/11/2011 13:44 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
J'en ai discuté en vitesse avec Sébastien ce matin et dès que tout cela sera derrière nous, nous allons essayer d'organiser une rencontre sur Paris pour que l'on puisse tous discuter de vive voix. Nous essayerons de monter à plusieurs pour que vous ayez le choix de votre interlocuteur. En attendant on décolle pas de notre chaise :(

12.Posté par Ervé.Do le 01/11/2011 13:33 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Un petit soucis pour consulter les statistiques qui restent bloquées au 29 octobre. Pas bien grave mais juste pour signaler !

Cordialement.

11.Posté par Marcel Levy le 01/11/2011 13:29 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour

Bon courage à toute l'équipe.
Quid des newsletters de demain. Seront-elles pénalisées ? Pourrons nous les envoyer comme d'habitude vers 7h30 ?
Votre sentiment sur ce sujet serait utile à l'organisation de notre traveil.
merci en tout cas pour vos efforts
Marcel Lévy

10.Posté par Tarik ESSAADI le 01/11/2011 13:27 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Je n ai aucun doute que vous arriverez au bon chemin web.
Longue vie a Wmaker

9.Posté par MICHELET le 01/11/2011 12:42 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour,

Décidément ces longs W.E de Fêtes!..
En tous cas merci pour la com. en toute transparence.
Courage pour la suite et le retour d'expérience.
Albert

8.Posté par Jean-Marc le 01/11/2011 12:26 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
On garde son calme et on attend en vous souhaitant bon courage.
Une précision, Pour les news letters on à un délai ou bien on peut envoyer ?
JM

7.Posté par bruno le 01/11/2011 11:56 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
J'utilise wmaker depuis quelques années déjà, et c'est le premier gros soucis coté client !
Coté wmaker, il y en a eu d'autres (je suppose) mais les interventions sont toujours rapides et efficaces.

Je vous réitère ma confiance avec force et conviction.
(par contre dites nous aussi quand on pourra créer d'autres sites car pour l'instant cela ne fonctionne pas non plus... wmaker.net/fusing )

6.Posté par GSCF - Thierry le 01/11/2011 11:25 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
le risque zero n'existe pas, même si nous sommes pénalisés,...
Bon courage a vos équipes de maintenance et merci pour les explications
Thierry

5.Posté par Belot le 01/11/2011 11:14 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
J'ai quelques douzaines de lecteurs qui attendent de recevoir leur blog, je les invite à patienter en expliquant la cause du retard et je tiens à vous remercier de me tenir informé de l'évolution de la situation. Souhait : que la SNCF s'inspire de votre exemple quand une caténaire lui joue un mauvais tour...

1 2 3 4 5