Compte-rendu des opérations de cette nuit 1 novembre 2011 Maj x 2

le Mardi 1 Novembre 2011

Je vais vous expliquer les choses techniquement et de la manière le plus exhaustive possible. En tout cas, de la façon dont j'aimerais qu'on me les explique en tant que client.
 
Nous rencontrons plusieurs problèmes qui, cumulés, nous compliquent la tâche.
 
Up-load vidéo :
Nous avons trouvé une solution pour rétablir l'up-load vidéo. Cela nécessite la modification de l'application ; ça prendra la journée. Une fois la modification effectuée, les vidéos pourront être lues depuis plusieurs serveurs. Actuellement, les vidéos sont lues depuis le serveur de back-up chez OVH. Cela nous permettra de réparer les volumes de disques défectueux du serveur de fichiers n°1. Nous disposons sur place d'une quarantaine de disques neufs dans leurs emballages (Seagate ES 2To). Adieu les disques Green de WesternDigital qui sont la cause de tous nos problèmes...
 
Opération data center / technicien OVH :
Cette nuit, nous avons demandé au technicien d'OVH d'intervenir sur notre architecture afin de rétablir l’up-load sur les vidéos. L'opération consistait à retirer un ensemble de plusieurs pools de disques afin de permettre à la machine de redémarrer. Etant donné qu'il s'agit de très grosses machines (48 disques), les checks de disque empêchaient le redémarrage.
 
Nous disposons de deux gros serveurs de ce type, un dans chaque baie, identifié par des étiquettes en façade et sur le panneau arrière. L'opérateur d'OVH n'a pas retiré les disques dans le bon serveur, mais dans le serveur de fichiers n°2. :-( 
 
Cela a eu pour conséquence de nous couper de notre deuxième serveur de fichiers central. Nous nous en sommes rendus compte quasiment immédiatement, nous avons pu contacter le technicien au téléphone qui a reconnecté les disques. Cela a provoqué une coupure du service de 15 minutes vers 0h40 cette nuit. Il y a eu ensuite beaucoup de travail pour l'équipe car nous avons dû remonter des machines virtuelles et surtout traiter un gros problème SQL…
 
Resynchronisation base de donnée :
Un défaut sur un serveur de données a entrainé une perte de désynchronisation sur l'ensemble des serveurs SQL. En temps normal, 6 de serveurs de base de données sont en réplication mutuelle, avec les mêmes données partout. Cette nuit, l'application était en ligne, mais les données n'étaient plus cohérentes d'une base à l'autre. Nous avons à l’heure actuelle, relancé 3 serveurs de base de données, on continu... Cette situation est assez exceptionnelle, cela nous est arrivé une fois en 2006 pendant la nuit de Noël. Pour se prémunir de ce genre de risque, une photo de la base est faite tous les jours à 6h00 du matin ; nous stockons ces images de la base chaque jour avec 1 mois d'historique. 
 
Nous avons pu garder les sites actifs. Seuls les back-offices ont été mis en maintenance de 4h00 à 6h30 du matin. Heureusement, nous n'avons pas eu besoin d'utiliser ce back-up. L'un des serveurs de bases de données avait été mis en stand-by hier à 19h00. Nous sommes repartis de cette base pour remonter des serveurs de base de données cohérents.  En revanche,  les modifications (Article, Photo ...) entre 19h00 et 3h00 du matin n’ont pas été sauvegardé . Tout le reste est en ligne.
 
Pour finir :
Nous avons bien conscience que cela fait beaucoup d'incidents en trois jours. Nous faisons le maximum pour revenir à une situation stable. Nous avons organisé un roulement des équipes pour résoudre au plus vite les problèmes. Une fois cet épisode terminé, nous allons modifier plusieurs aspects de notre organisation. Le seul point positif, c'est que nous avons réussi à limiter l'interruption de service à 15 minutes, cette nuit. Nous pensons raisonnablement rouvrir l'up-load des vidéos d'ici mercredi matin. Une fois que nous serons venus à bout de tout cela, je vous proposerai une compensation commerciale. Mais là on se concentre  totalement sur les problèmes techniques. Je ferai un point en début d’après midi.

Maj 15h30 01/11 :
- Site : Temps de génération moyen des pages sous les >500 ms, c'est un peu plus lent que d'habitude mais la valeur s'approche de la normale. 
- WebTV : le lancement des videos est toujours lent, système Uplaod progress bien samir donnera des détails en commentaire de la note. 

Merci pour vos soutiens nombreux, On lache rien !!!! 

Maj 00h00 01/11 :
- Site : temps de génération moyen des pages 280 ms.
- WebTV : Lancement des videos est normal, Upload des videos actif si vous avez votre propre domaine !!!
 


Sébastien Simoni
Fondateur de WMaker et du CampusPlex En savoir plus sur cet auteur


Vos commentaires
Du plus récent au plus ancien | Du plus ancien au plus récent

21.Posté par perraut francois le 01/11/2011 17:37 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
ont ne comprend pas tout ... ONT est une faute de frappe ...

22.Posté par Marcel Levy le 01/11/2011 17:44 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour

Désolé de revenir sur le sujet mais les NL qui seront envoyées demain matin seront-elles impactées par ces soucis techniques ?
Merci de votre réponse
Amitiés
ML

23.Posté par jptarot le 01/11/2011 17:48 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour,
Avant tout, bon courage. Sinon, il reste encore des problèmes sur l'envoie d'emails ?
Je recois ca à chaque fois...
Certains des destinataires ou tous les destinataires n'ont pas reçu votre message.

Objet : Hola
Date : 01/11/2011 17:42

Impossible de contacter le(s) destinataire(s) suivant(s) :

'Irina Shostak' le 01/11/2011 17:42
503 Valid RCPT command must precede DATA

24.Posté par gallay le 01/11/2011 20:48 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
il faut arrêter de les plaindre, ce sont nos prestataires que nous payons pour une prestation qui souffre de nombreux problèmes depuis longtemps endémiques et structurels qui rendent nos sites défaillants.la sanction du marché arrive.

25.Posté par Belot le 01/11/2011 21:12 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bravo

26.Posté par thierry GSCF le 02/11/2011 09:58 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour,
Nous n’avons plus d’accès à la plate forme , merci de nous informer de vos travaux.
Cordialement
Thierry

27.Posté par perraut francois le 02/11/2011 09:27 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Après un tel bordel .. on ne peut pas être laconique à ce point ...Les vidéos ne passent toujours pas .. il faut régler le problème .. on a l'impression que vous nous refilez le bébé ..qui est toujours très malade ...f perraut
- Site : temps de génération moyen des pages 280 ms.
- WebTV : Lancement des videos est normale, Upload des videos actifs si vous avez votre propre domaine !!!

28.Posté par Eva Esztergar le 02/11/2011 09:31 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bon courage à l'équipe qui doit résoudre tous les problèmes et mettre terme à la panne qui nous paralyse encore ce matin: pas d'accès back-office ni en France ni dans les autres pays où nos correspondants essaient de se connecter, depuis cette nuit... La nuit dernière on a déjà perdu tout le travail de plusieurs personnes, espérons que ce n'est pas le cas pour cette fois encore!
Nos correspondants journalistes qui sont aux quatre coins du monde doivent travailler mais depuis samedi soir, ils passent leur temps à essayer de transmettre les articles, images, audios et vidéos, sans succès, c'est tout aussi pénible pour nous que pour vous, sauf que le prestataire c'est vous...
Et hélas, ça continue encore ce matin aussi, on ne peut se connecter de nulle part!
Je ne vois aucune trace de la panne de back-office (inaccessibilité), ni au blog, tech, status, quelqu'un en sait un peu plus? Quand peut-on reprendre le travail?

29.Posté par Sébastien Simoni le 02/11/2011 09:37 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
@ perçut francois Upload des vidéos sont OK sur WebTV mais pas encore sur le CMS ça sera rétablit ce matin.
http://blog.wmaker.net

30.Posté par Jerome Granados le 02/11/2011 09:38 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
@Eva Esztergar à 9h20 (CET) , les accès à tous les back office sont rétablis

31.Posté par Marcel Levy le 02/11/2011 09:45 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour

Le back office ne fonctionnait pas à 5h45 ce matin. Il a repris vers 9h 15.
Nous n'avons pas eu de mails non plus sur les domaines gérés par wmaker.

Aucun backoffice n'était accessible chez nous... Cela me fait penser au plombier d’une usine à gaz qui une fois après avoir resserré le premier robinet, se rend compte que la fuite repart de plus belle ailleurs et ainsi de suite ! cette situation prêterait à sourire si elle n'impactait pas économiquement notre activité professionnelle.

ML


32.Posté par Sébastien Simoni le 02/11/2011 09:45 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
@ thierry GSCF les back office sont accessibles, nous avons un reboot sur le serveur de base de donnée.
Nous sommes entrain de monter son serveur relais.

33.Posté par Yann le 02/11/2011 10:01 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour,

Comme disait Steve Jobs: "L'innovation revient à dire non à mille projets pour être certain que nous n'allons pas dans la mauvaise direction ou que nous n'essayons pas de faire trop de choses en même temps".

Un recentrage de WM sur la ce qu'attendent vos utilisateurs (et notamment sur la stabilité de la plateforme) me semblerait plus judicieux que la course à l'innovation technologique permanente.

Bon courage à toute l'équipe

34.Posté par Sébastien Simoni le 02/11/2011 10:08 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
@Yann merci, oui jobs devrait inspirer beaucoup de monde...

35.Posté par Guillaume le 02/11/2011 12:25 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Je suis pour l'innovation et c'est pour ca que j'ai choisi WM.
Continuez WM ! C'est important pour un sit web, ce que vous faites.

36.Posté par TITEM YACINE le 02/11/2011 12:58 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
la fonction vidéo à la une, ne marche pas...?

37.Posté par jessica le 02/11/2011 13:45 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
bravo à toute l'équipe pour la réactivité et l'acharnement! bon courage à vous!

38.Posté par Thierry GSCF le 02/11/2011 14:40 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour,
Pouvez-vous nous donner une réponse pour les newleters svp nous sommes bloqué jusqu'au 1er décembre ??
Par avance merci.

Merci pour votre travail,

Bon courage

Amicalement

Thierry

39.Posté par Christophe le 02/11/2011 15:09 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour,

Je ne peux toujours pas uploader de vidéos depuis samedi. C vraiment gênant. J'espère qu'on n'arrive au bout de l'attente car je reçoit des mais d'internautes mécontents.

Bon courage.

Christophe.

40.Posté par Jerome Granados le 02/11/2011 15:21 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
@Thierry Une réponse et une solution vous attendent dans le support.

1 2 3 4 5