Nous constatons des ralentissement sur les cluster de p19 nous investiguons
Update(s):
Date: 2018-04-27 17:26:35 UTC L’ensemble des clusters est de nouveau opérationnel depuis 17h43, tous les services ont retrouvé leur niveau de performance nominal.
Voici quelques éléments concernant cet incident :
• 2018/04/27 09:30 CET : une attaque démarre, cette dernière n’est pas immédiatement détectée par nos anti-ddos et HIDS.
• 2018/04/27 10:30 CET : la surconsommation CPU liée à cette attaque provoque une surcharge électrique de 3 baies.
• 2018/04/27 11:00 CET : nos équipes corrigent ce problème de charge, les 3 baies sont alors remontées, les machines commencent à être redémarrées.
• 2018/04/27 12:30 CET : 80 % des machines sont opérationnelles.
• 2018/04/27 13:15 CET : l'ensemble des clusters est remonté. Cependant certaines machines présentent toujours de fortes instabilités. Les systèmes de répartition de charge d’OVH permettent de distribuer le trafic entrant afin de rétablir un niveau de performance satisfaisant.
• 2018/04/27 15:00 CET : plusieurs clusters sont de nouveau impactés par l'attaque. Des actions additionnelles sont mises en place via nos différents systèmes HIDS et anti-ddos.
• 2018/04/27 16:30 CET : l'attaque est mitigée, la charge des clusters diminue et les machines commencent à être remontées.
• 2018/04/27 17:43 CET : tous les clusters et l’ensemble des machines sont de nouveaux opérationnels.
Date: 2018-04-27 15:05:50 UTC Dernier cluster006 en cours de résolution
Date: 2018-04-27 14:19:46 UTC Nous stabilisons l'ensemble des clusters encore impactés :