Dimanche 29 Janvier 2012

le Lundi 30 Janvier 2012

Dimanche 29 Janvier 2012
Depuis le milieu de la semaine dernière, nous étions en train de basculer sur notre architecture de serveur de fichiers (NAS) de production pour 2012.

L'incident du mois d'octobre nous avait poussé à acheter beaucoup de matériel :

- 40 disques SEAGATE ES (classe entreprise) garantis 5 ans et 1,2 Millions d'heures de 2 To chacun pour les NAS.
- 20 Disques Intel SSD de 600 Go à 1000 € pièces garanties 5 ans également, afin de disposer d'un pool ultra rapide.
- 2 serveurs HP utilisés comme tête de NAS 16 Core et 64 Go de mémoire vive avec 2 liens 10 Gb/s
- 1 Baie HP de 24 disques 2 1/2" P2000 interface 4 x 10 Gb/s

Mardi

Nous avons réparti les 20 SSD dans Sandy 1 (NAS 1) et Sandy 2 (NAS 2), ils sont x 100 plus rapide que des disques à plateau. Nous avons changé tous les disques de Sandy 2 par 20 disques SEAGATE ES de 2 To.

Jeudi

Nous avons mis en production un pool de 10 Disques sur Sandy 1, nous avons gagné en moyenne +30% en rapidité. Nous avons également lancé les synchronisations de données sur Sandy 2.

Tout ce weekend nous avons surveillé la synchronisation afin de doser le transfert de données pour ne pas ralentir les sites. Tous devait être fini pour lundi car Sandy 2 devait être mis en production lundi dans l'après midi.

Dimanche

Mais aujourd'hui nous avons perdu 4 disques SSD Intel 600 Go vers 16 h le système était capable de supporter la perte de 2 disques pas 4. Nous disposions d'un back up J-1. Nous pensions pouvoir tout de même exploiter le snapshot de la journée de samedi mais les données ne sont pas exploitables. Pour les articles publiés le vendredi 27 janvier après 13h 55, il vous faudra uploader les photos à nouveau, en revanche aucun souci sur les vidéos.


Dans notre malheur nous avons eu un peu de chance car 2 des disques se sont remis à fonctionner pendant quelques minutes. Nous avons immédiatement effectué un snapshot des données ce qui nous a permis de récupérer le différentiel de données, donc aucune perte.

HP et INTEL

Nous avions pris beaucoup de précautions depuis le mois d'octobre, mobilisés plusieurs personnes à plein temps sur ce projet. Mais c'était sans compter sur la légèreté de HP et de INTEL !!!

HP

HP a mis 1 mois et demi à nous répondre qu'il était normal d'avoir un débit de 700 Mb/s alors que la doc technique de la baie nous annonce 1600 Mb/s. Et je parle pas des serveurs pour qui il nous a fallu 1 mois à détecter un bug sur le système d'économie d'énergie qui faisait rebooter les serveurs pendant la nuit. Si HP veut des infos à ce sujet on peut leur en donner car leurs serveurs sont en mode efficiency quand la charge est trop basse. Ce qui est scandaleux c'est d'acheter pour 100 000 € de matériel et d'avoir un support digne d'une machine à laver.

INTEL

Nous avons acheté 20 disques à 1000 €/pièce chez INTEL. Ils postent une alerte sur les disques en disant qu'il faut mettre à jour leur fireware car sinon nous risquons un Bug. INTEL est (était) la meilleure marque de disques SSD. OVH nous avait confirmé qu'il n'utilise que cette marque pour des raisons de fiabilité. Ces disques sont 30% plus cher au Go. Et bien hier en fin d'après midi, malgré le Fireware à jour censé corriger le bug et les 5 ans de garantie 3 disques ont perdus leurs données.

Pour conclure :

Je n'essaie pas de nous dédouaner mais franchement HP et INTEL ne sont pas des constructeurs de second rang et d'ailleurs ils font payer fort cher leur Marque. Nous avons remonté très provisoirement WMaker sur un Pool SSD que nous allons désactiver dès que les back Up sur les disques à plateau seront finis (lundi fin journée).

Lundi nous allons faire une demande de prix à NetApp qui à la réputation d'être la Rolls Royce des NAS. Nous allons probablement être obligé pour notre santé mentale de passer par eux...

L'année commence bien + 1,6 % de TVA et minimum 60 000 € supplémentaires pour 2 NAS de chez NetApp....

On va pas se laisser abattre, nous avons plein de superbes nouveautés à publier en février, on continue !!


Sébastien Simoni
Fondateur de WMaker et du CampusPlex En savoir plus sur cet auteur


Vos commentaires
Du plus récent au plus ancien | Du plus ancien au plus récent

1.Posté par Gérald Vidamment le 30/01/2012 05:40 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour,
J'ai suivi heure par heure depuis cet après-midi et durant toute la nuit, ayant des articles à mettre en ligne pour lundi matin. Je dois dire que vous avez très bien communiqué sur Twitter, même si j'avais bon espoir que tout rentre dans l'ordre en début de soirée.
Merci donc pour la com et désolé pour ces mauvaises nouvelles, dont les NAS de chez NetApp.
Finalement, les SSD sont ils la bonne solution actuellement en termes de fiabilité ou est-ce selon vous un problème spécifique à HP / Intel ?

2.Posté par Sébastien Simoni le 30/01/2012 05:49 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Actuellement 70 % de nos serveur embarque des 8 SSD Intel de 120 Gb sans aucun soucis.
Depuis cette été nous testons en 2 disques Intel serie 320 de 600 Go sans soucis.
Enfin, nous avons des bench test qui tourne sur les pool SSD de stockage depuis début décembre rien nous laissé présager cela :-(

3.Posté par leonidas le 30/01/2012 06:32 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
bonjour ,
je salue toute l' equipe, nous avons tout suivi egalement, et nous vous remercions pour la volonte que vous avez pour communiquer. je vous encourage dans cette voie. j ai un petit probleme dans le backoffice de notre webtv , on ne peut rien faire , il y a un message pour lire la note sur le blog qu'on ne peut pas fermer , j espere que vous allez corriger ca rapidement. Merci beaucoup..A bientot ..
www.noulive.com

4.Posté par ROQUAIN le 30/01/2012 07:00 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Merci a vous pour la communication et bravo pour ce travail harassant,

5.Posté par Virginie Cadieu le 30/01/2012 07:07 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour,

Un grand bravo à toute l'équipe et merci pour le grand effort de communication qui a été fourni très régulièrement, ce qui nous a permis, de notre côté, de rester très confiant.

6.Posté par Yannick Sourisseau le 30/01/2012 07:18 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bravo à toute l'équipe. Je ne suis pas inquiet car je sais que vous allez faire le maximum pour tout remettre dans l'ordre, dans les meilleurs délais. Vous l'avez déjà démontrer l'an dernier.
Les grandes marques ce n'est plus ce que c'était, ils communiquent beaucoup, mais n'ont plus la fiabilité que l'on est en droit d'attendre, étant donné que malgré la daube qu'ils nous vendent désormais, ils n'ont pas baissé leurs tarifs pour autant.

Bon courage a vous

7.Posté par François PERRAUT le 30/01/2012 07:28 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour de la Réunion .. on a juste un problème avec les vidéos .. impossible a uploader ... On espère que le problème sera réglé le plus rapidement possible ...pour la tva à 1,6 il existe une solution radicale à ce problème .. Le 22 avril au 1er tour des élections.. tous ensemble ! tous ensemble ...

8.Posté par bruno le 30/01/2012 07:32 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
mince j'ai loupé les évènements sur twitter..ca m'aurait rassuré ;)

9.Posté par Désiré ALLA le 30/01/2012 07:35 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Comme on dit je nous à Abidjan : YAKO. (pour dire qu'on compati, on est désolé, on vous soutient). Nous avons tout suivi le dimanche car nous sommes en plein CAN 2012. Mais nous étions confiants car nous avons totalement confiance en vous. You're the best!

10.Posté par Patrick RENZI le 30/01/2012 08:30 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Quand un magazine comme le mag'auto confie la partie logistique matérielle à un CMS, il a l'obligation de miser sur une équipe compétente. Franchement, grâce à une excellente communication qui n'était pas votre point fort pendant longtemps, nous avons pu mesurer votre potentiel réactif et nous savons aujourd'hui, que nous avons eu raison de choisir wmaker pour supporter le mag'. La finalité du mag'auto étant d'informer les lecteurs 7/7 24/24, chacun mesure l'importance de s'entourer de personnes disponibles et compétentes. Bravo à vous et merde pour nos avenirs respectifs.
http://www.lemagauto.fr

11.Posté par Sophie Haberbüsch le 30/01/2012 09:05 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bon courage à toute l'équipe.
Je suis très contente de votre travail, de l'initiative et de la créativité de l'équipe. Nous comprenons les incidents et vous souhaitons bon courage pour ces grands travaux et bonne chance pour la suite !

12.Posté par Jean-Christophe Gilbert le 30/01/2012 09:10 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Merci pour la qualité de votre suivi.

Quelques petites coquilles dans votre texte :

L'incident du mois Octobre nous avez poussé acheter beaucoup de matériel :
> Nous a poussé à acheter.

Mardi
Nous avons répartie
> répartis

les 20 SSD dans Sandy 1 (NAS 1) et Sandy 2 (NAS 2), ils sont x 100 plus rapide que des disques à plateau. Nous avons changer
> Nous avons changé

Jeudi
Nous avons également lancé les synchronisations de donnée
> données

Dimanche
vers 16 h le système était capable de supporté
> supporter

Nous pensions pouvoir tout de même exploité
> exploiter

le snapshoot de la journée de samedi mais les données ne sont pas exploitable.
> exploitables

Pour les articles publié
> publiés

Dans notre malheur nous avons eu un peu de chance car 2 des disques c'est remis à fonctionner
> se sont remis à fonctionner

HP et INTEL
Mais c'était sans compté
> sans compter

HP
HP a mis 1 mois et demi à nous répondre qu'il était normale
> normal

Si HP veut des infos à ce sujet on peut leur en donnée
> donner

un support digne d'une machine à lavée.
> laver

On va pas ce laisser abattre
> se laisser abattre

nous avons plein de superbes nouveautés à publier en février on continu !!
> continue.

++

13.Posté par MoBBee TV le 30/01/2012 09:31 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Twitter
bravo encore à toute l'équipe et un grand merci pour la communication en temps de crise, bien à vous l'Equipe de MoBBee.fr

Eric Lauretta

14.Posté par B.Cottin le 30/01/2012 09:40 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bon courage alors.
J'attends aussi que le webmail fonctionne à nouveau.
Vous avez raison de communiquer à propos de la relation qualité-prix des grandes marques!

15.Posté par Minh TL le 30/01/2012 10:17 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour,
Depuis je vous connais, jamais cela n'est arrivé et comme statistiquement cela arrive, nous sommes repartis pour 7 ou 8 ans sans que cela arrive de nouveau ! :))

Bon courage à tous !

Minh

16.Posté par Paris Tribune le 30/01/2012 10:17 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Twitter
Bravo de nous avoir tenu informé grâce à Twitter. J'étais sur le back-office quand à 15h45 tout a commencé. J'ai tout suivi en espérant mettre des articles en ligne au plus vite. La plus grande joie, c'était à 17h45 lorsque tout était rentré dans l'ordre. La plus grosse déception, c'était à 17h43 lorsque le back-office et le site n'étaient de nouveau plus disponibles. Je pense que vous pourriez faire jouer la responsabilité des fabricants pour la défaillance de leurs matériels.
J'ai une question : comment se fait-il que tous les sites n'aient pas été touché de la même façon ? Je pense à un site d'information en particulier qui a pu être visible pendant que d'autres non. Existe-t-il des SSD de secours, un peu comme des groupes électrogènes en cas de panne de courant ? Merci de me répondre !

17.Posté par Paris Tribune le 30/01/2012 10:25 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Twitter
Une erreur de frappe dans mon précédent message : la plus grande joie c'était à 17h45 quand tout était rentré dans l'ordre et la plus grosse déception, c'était à 18h20 lorsque plus rien de fonctionnait.

18.Posté par Jerome Granados le 30/01/2012 11:11 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
@7 : pouvez-vous refaire un essai d'upload ? De notre coté, tout est ok. Si pbm, merci d'ouvrir un thread.

@12 : merci, on va corriger l'orthographe ;)

@14 : le webmail fonctionne à nouveau voir le tweet

@16 : oui, c'est revenu brièvement pendant un instant, on en a profité pour faire une sauvegarde. Pour le site d'information, il dispose d'un hébergement spécifique

19.Posté par T.Essaadi le 30/01/2012 11:45 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Solidaires avec Wmaker
Bon courage

20.Posté par Ravallec le 30/01/2012 12:14 | Alerter
Utilisez le formulaire ci-dessous pour envoyer une alerte au responsable du site concernant ce commentaire :
Annuler
Bonjour,
J'ai 2 questions :

1) j'ai effectué des changements de design samedi et dimanche sur http://www.fashiondog.com. Le site actuellement en ligne ne correspond pas du tout à mes changements et est "horrible". Mes changements ont-il été "zappés" par le problème rencontré dimanche ?
2) J'ai créé un nouveau site samedi et dimanche "dogcuisine". Le site dimanche à 14H était en ligne. En me reconnectant ce matin, impossible de retrouver le site, ni même l'interface d'administration... Ne me dites pas SVP qu'il a été effacé...
J'ai passé mon WE à bosser sur wmaker et ca me ferait "mal" que tout soit effacé...
Merci pour une réponse rapide.
Jonathan

1 2