P19 / cluster002

OVHcloud Web Hosting Status

Current status

Legend

Operational
Degraded performance
Partial Outage
Major Outage
Under maintenance

P19 / cluster002

Incident Report for Web Cloud

Resolved

Nous rencontrons des ralentissements et des indisponibilités au niveau des filers sur tous les serveurs.

Nous recherchons la cause de cet incident.

Update(s):

Date: 2016-11-16 13:17:23 UTC
Nous avons trouvé d'où venaient les soucis, une accumulation de petites défaillances provoquant un plus gros problème.

1/ Serveurs web avec une auto-négociation en 10G au lieu de 1G (proquant de la surcharge réseau). Ils ont été forcés en 1G

2/ Depuis plusieurs semaines, nous mettons à jour nos prédictors. Ce sont nos machines en charge de la haute
disponibilité de vos sites web. Ils permettent en cas de panne, de passer sur un autre serveur web. Pour les offres
performances, c'est cette infrastructure qui se chargent de faire exécuter vos sites sur des serveurs aux performances
garanties. Ces serveurs utilisent un système de déploiement afin de connaitre la manière de dispatcher les sites.
Sur le cluster002, la mise à jour des prédictors a été effectuée en début de matinée du 15/11. Le système de
déploiement était défaillant depuis 3 jours et, après leur mise a jour, les predictors ne pouvaient plus faire le
dispatch : il n'était fait que sur les serveurs web mutualisés et non sur les serveurs web aux ressources garanties.

Le fait que seul les serveurs web mutualisés étaient utilisés à provoqué une augmentation des requ^etes vers les
filerz, du au renouvellement des caches des serveurs web, et des caches logiciels intégrés dans les frameworks récents
(wordpress, symfony, smarty...)

3/ Un switch saturant ses liens réseaux, il a été upgradé.

4/ Des filerz montant en load et bloquant l'intégralité des serveurs web à cause des IO wait.
Ceci provient des trois points ci-dessus et a causé l'effondrement de beaucoup de site.

5/ Le CDN ayant été déconfiguré, le SSL n'était plus accessible. La configuration est remise en place.

Tous ces points sont corrigés et le cluster002 fonctionne à nouveau normalement.

Date: 2016-11-16 09:23:38 UTC
Suite aux opérations de la nuit, les certificats SSL avaient été désannoncé, ce qui a provoqué des erreurs sur les sites en HTTPS.
Nous venons de le réactiver à l'instant. Tous les sites en HTTPS fonctionnent désormais correctement.

Date: 2016-11-16 00:49:35 UTC
Le trafic est revenu à la normal à 01h.

Nous surveillons ces filerz de très près le reste de la nuit et planifions des investigations poussées sur l'origine de l'incident.

Date: 2016-11-15 17:32:15 UTC
Nous avons isolé une machine posant problème, puis upgrader nos switchs pour supporter plus de traffic
Nous tentons de remettre en route les filerz.

Date: 2016-11-15 14:37:21 UTC
Il semblerait qu'un switch réseau ai un soucis et impacte la connection vers plusieurs filerz.
Ceci provoque une monté en charge sur les serveurs web, qui par protection sorte de la ferme.
Le switch est en cours de fixe, nous stabilisons la ferme des serveurs web, sanchant que certains compte ne seront pas joignable le temps que le switch soit réparé.

Impact sur : homez.232 / homez.46 / homez.32 / homez.303

Posted Nov 15, 2016 - 14:00 UTC

This incident affected: Web Hosting || Datacenter GRA (Cluster002, Cluster003, Cluster006, Cluster007, Cluster011, Cluster012, Cluster013, Cluster014, Cluster015, Cluster017, Cluster020, Cluster021, Cluster023, Cluster024, Cluster025, Cluster026, Cluster027, Cluster028, Cluster029, Cluster030, Cluster031).