Je vais vous expliquer les choses techniquement et de la manière le plus exhaustive possible. En tout cas, de la façon dont j'aimerais qu'on me les explique en tant que client.
Nous rencontrons plusieurs problèmes qui, cumulés, nous compliquent la tâche.
Up-load vidéo :
Nous avons trouvé une solution pour rétablir l'up-load vidéo. Cela nécessite la modification de l'application ; ça prendra la journée. Une fois la modification effectuée, les vidéos pourront être lues depuis plusieurs serveurs. Actuellement, les vidéos sont lues depuis le serveur de back-up chez OVH. Cela nous permettra de réparer les volumes de disques défectueux du serveur de fichiers n°1. Nous disposons sur place d'une quarantaine de disques neufs dans leurs emballages (Seagate ES 2To). Adieu les disques Green de WesternDigital qui sont la cause de tous nos problèmes...
Opération data center / technicien OVH :
Cette nuit, nous avons demandé au technicien d'OVH d'intervenir sur notre architecture afin de rétablir l’up-load sur les vidéos. L'opération consistait à retirer un ensemble de plusieurs pools de disques afin de permettre à la machine de redémarrer. Etant donné qu'il s'agit de très grosses machines (48 disques), les checks de disque empêchaient le redémarrage.
Nous disposons de deux gros serveurs de ce type, un dans chaque baie, identifié par des étiquettes en façade et sur le panneau arrière. L'opérateur d'OVH n'a pas retiré les disques dans le bon serveur, mais dans le serveur de fichiers n°2. :-(
Cela a eu pour conséquence de nous couper de notre deuxième serveur de fichiers central. Nous nous en sommes rendus compte quasiment immédiatement, nous avons pu contacter le technicien au téléphone qui a reconnecté les disques. Cela a provoqué une coupure du service de 15 minutes vers 0h40 cette nuit. Il y a eu ensuite beaucoup de travail pour l'équipe car nous avons dû remonter des machines virtuelles et surtout traiter un gros problème SQL…
Resynchronisation base de donnée :
Un défaut sur un serveur de données a entrainé une perte de désynchronisation sur l'ensemble des serveurs SQL. En temps normal, 6 de serveurs de base de données sont en réplication mutuelle, avec les mêmes données partout. Cette nuit, l'application était en ligne, mais les données n'étaient plus cohérentes d'une base à l'autre. Nous avons à l’heure actuelle, relancé 3 serveurs de base de données, on continu... Cette situation est assez exceptionnelle, cela nous est arrivé une fois en 2006 pendant la nuit de Noël. Pour se prémunir de ce genre de risque, une photo de la base est faite tous les jours à 6h00 du matin ; nous stockons ces images de la base chaque jour avec 1 mois d'historique.
Nous avons pu garder les sites actifs. Seuls les back-offices ont été mis en maintenance de 4h00 à 6h30 du matin. Heureusement, nous n'avons pas eu besoin d'utiliser ce back-up. L'un des serveurs de bases de données avait été mis en stand-by hier à 19h00. Nous sommes repartis de cette base pour remonter des serveurs de base de données cohérents. En revanche, les modifications (Article, Photo ...) entre 19h00 et 3h00 du matin n’ont pas été sauvegardé . Tout le reste est en ligne.
Pour finir :
Nous avons bien conscience que cela fait beaucoup d'incidents en trois jours. Nous faisons le maximum pour revenir à une situation stable. Nous avons organisé un roulement des équipes pour résoudre au plus vite les problèmes. Une fois cet épisode terminé, nous allons modifier plusieurs aspects de notre organisation. Le seul point positif, c'est que nous avons réussi à limiter l'interruption de service à 15 minutes, cette nuit. Nous pensons raisonnablement rouvrir l'up-load des vidéos d'ici mercredi matin. Une fois que nous serons venus à bout de tout cela, je vous proposerai une compensation commerciale. Mais là on se concentre totalement sur les problèmes techniques. Je ferai un point en début d’après midi.
Maj 15h30 01/11 :
- Site : Temps de génération moyen des pages sous les >500 ms, c'est un peu plus lent que d'habitude mais la valeur s'approche de la normale.
- WebTV : le lancement des videos est toujours lent, système Uplaod progress bien samir donnera des détails en commentaire de la note.
Merci pour vos soutiens nombreux, On lache rien !!!!
Maj 00h00 01/11 :
- Site : temps de génération moyen des pages 280 ms.
- WebTV : Lancement des videos est normal, Upload des videos actif si vous avez votre propre domaine !!!
Maj 15h30 01/11 :
- Site : Temps de génération moyen des pages sous les >500 ms, c'est un peu plus lent que d'habitude mais la valeur s'approche de la normale.
- WebTV : le lancement des videos est toujours lent, système Uplaod progress bien samir donnera des détails en commentaire de la note.
Merci pour vos soutiens nombreux, On lache rien !!!!
Maj 00h00 01/11 :
- Site : temps de génération moyen des pages 280 ms.
- WebTV : Lancement des videos est normal, Upload des videos actif si vous avez votre propre domaine !!!