rssLink RSS for all categories
 
icon_blue
icon_green
icon_orange
icon_orange
icon_red
icon_green
icon_green
icon_orange
icon_red
icon_orange
icon_red
icon_green
icon_green
icon_orange
icon_orange
icon_red
icon_blue
icon_green
icon_red
icon_orange
icon_green
icon_green
icon_red
icon_blue
icon_orange
icon_green
icon_green
icon_green
icon_green
icon_green
icon_red
 

FS#31910 — web clusters P19

Attached to Project— Web Hosting / CloudDB
Incident
All web clusters
CLOSED
100%
Depuis vendredi 25 mai, nous observons un bug qui affecte certaines de nos hébergements. Il provoque une erreur 404 et un message "site non installé" durant 5 minutes.

Ce bug s'est reproduit deux à trois fois par jours depuis vendredi.

Nous n'avons pas encore réussi à reproduire ce bug en laboratoire et nous analysons actuellement les logs afin de comprendre son origine.

Ce bug s'est reproduit deux à trois fois par jours depuis vendredi et uniquement sur le datacentre de P19.

Nos équipes travaillent toujours sur ce bug afin de le fixer définitivement.
Date:  Monday, 04 June 2018, 11:33AM
Reason for closing:  Done
Additional comments about closing:  Nous n'observons plus d’occurrences de ce bug depuis l'application de ce patch alors qu'il apparaissait trois à quatre fois par jour avant.

Cela confirme l'ensemble de nos hypothèses et ce bug est donc définitivement résolu.
Comment by OVH - Friday, 01 June 2018, 17:35PM

Nous avons trouvé depuis lundi que le soucis des « sites non installé » est lié à une corruption de la configuration déployée au travers de notre infrastructure. De manière aléatoire, cette configuration est transférée tronquée.

Nous avons recherché les causes de cette corruption. Après quelques heures de recherches, nous avons pu confirmer que le réseau n'en était pas la cause, l'intégrité étant bien vérifié entre la source et la destination. Nous nous sommes aussi assuré que l'algorithme gérant l'intégrité n'était pas la cause de ce soucis et nous n'avons trouvé aucun bug, même lorsque les erreurs 'site non installé' se sont déroulés.

Ce système de déploiement de configuration est actuellement en train d’être migré vers une version plus rapide. Afin d’assurer cette migration, nous avons mis en place un système permettant de vivre avec les deux systèmes en parallèle afin de s’assurer, en tâche de fond durant plusieurs semaines, que les configurations sont identiques avec les deux systèmes.

Au sein du code permettant aux deux systèmes de fonctionner, nous avons trouvé une race condition, qui, si le système est un peu chargé, peut tronquer la configuration qui est déployée sur notre parc. Lors du déploiement suivant, la configuration revient dans son état normal sans troncature.
Bien que nous ayons fait tourner ce système sur nos environnements de tests, nous n’avions pas observé ce comportement.

Nous venons de déployer le fix concernant cette race condition et allons observer si le soucis se reproduit de nouveau dans les heures à venir.
Nous clôturerons cette tâche travaux lundi matin si le phénomène n’est pas apparu de nouveau