OVHcloud Web Hosting Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
web clusters P19
Incident Report for Web Cloud
Resolved
Depuis vendredi 25 mai, nous observons un bug qui affecte certaines de nos hébergements. Il provoque une erreur 404 et un message \"site non installé\" durant 5 minutes.

Ce bug s'est reproduit deux à trois fois par jours depuis vendredi.

Nous n'avons pas encore réussi à reproduire ce bug en laboratoire et nous analysons actuellement les logs afin de comprendre son origine.

Ce bug s'est reproduit deux à trois fois par jours depuis vendredi et uniquement sur le datacentre de P19.

Nos équipes travaillent toujours sur ce bug afin de le fixer définitivement.

Update(s):

Date: 2018-06-04 09:35:19 UTC
Nous n'observons plus d’occurrences de ce bug depuis l'application de ce patch alors qu'il apparaissait trois à quatre fois par jour avant.

Cela confirme l'ensemble de nos hypothèses et ce bug est donc définitivement résolu.

Date: 2018-06-01 15:35:48 UTC
Nous avons trouvé depuis lundi que le soucis des « sites non installé » est lié à une corruption de la configuration déployée au travers de notre infrastructure. De manière aléatoire, cette configuration est transférée tronquée.

Nous avons recherché les causes de cette corruption. Après quelques heures de recherches, nous avons pu confirmer que le réseau n'en était pas la cause, l'intégrité étant bien vérifié entre la source et la destination. Nous nous sommes aussi assuré que l'algorithme gérant l'intégrité n'était pas la cause de ce soucis et nous n'avons trouvé aucun bug, même lorsque les erreurs 'site non installé' se sont déroulés.

Ce système de déploiement de configuration est actuellement en train d’être migré vers une version plus rapide. Afin d’assurer cette migration, nous avons mis en place un système permettant de vivre avec les deux systèmes en parallèle afin de s’assurer, en tâche de fond durant plusieurs semaines, que les configurations sont identiques avec les deux systèmes.

Au sein du code permettant aux deux systèmes de fonctionner, nous avons trouvé une race condition, qui, si le système est un peu chargé, peut tronquer la configuration qui est déployée sur notre parc. Lors du déploiement suivant, la configuration revient dans son état normal sans troncature.
Bien que nous ayons fait tourner ce système sur nos environnements de tests, nous n’avions pas observé ce comportement.

Nous venons de déployer le fix concernant cette race condition et allons observer si le soucis se reproduit de nouveau dans les heures à venir.
Nous clôturerons cette tâche travaux lundi matin si le phénomène n’est pas apparu de nouveau
Posted May 29, 2018 - 16:05 UTC
This incident affected: Web Hosting || Datacenter GRA (Cluster002, Cluster003, Cluster006, Cluster007, Cluster011, Cluster012, Cluster013, Cluster014, Cluster015, Cluster017, Cluster020, Cluster021, Cluster023, Cluster024, Cluster025, Cluster026, Cluster027, Cluster028, Cluster029, Cluster030, Cluster031).