OVHcloud Private Cloud Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
pcc-27-n5
Incident Report for Hosted Private Cloud
Resolved
Plusieurs fex sont down sur ce switch. Le pcc-26 étant toujours en cours de reconfig, certains hosts sont downs.

Update(s):

Date: 2014-09-28 23:17:44 UTC
Plus de détails sur le downtime de cette fin d'après-midi (18h30 environ):

Suite à des problèmes hardware (fans) sur le pcc-26 ce matin, la procédure de remplacement par le spare était en cours et le service était assuré par le pcc-27 uniquement. La procédure de synchro de la config dure plusieurs heures ce qui est normal. Cependant, il semble que l'un des scripts de resync ait justement provoqué une monté en charge cpu sur le pcc-27 (process ethpm). La conséquence est que le pcc-27 a finit par perdre la connexion avec ses fexs. A ce moment la, vers 18:15 environ, on se retrouve donc avec un pcc-26 isolé et en cours de reconfig et un pcc-27 avec ses fexs coupés. Les 2 pattes des hosts connectées sur cette paire ont donc été coupées ce qui a généré le downtime jusqu'à ce que le pcc-27 revienne après un reboot forcé vers 19h00. C'est à partir de ce moment seulement que les hosts commencent à remonter.

Nous finissons actuellement de remettre le pcc-26 en production pour repasser en redondance complète sur cette paire.

Date: 2014-09-28 22:34:43 UTC
Nous n'observons plus de problème sur ce switch, la config est maintenant normalisée.

Date: 2014-09-28 17:01:11 UTC
4 fex sur 13 étaient down sur le pcc-27-n5 suite à la montée en charge d'un process.

La situation étant irrécupérable à ce niveau, nous avons forcé un reload du pcc-27 afin de remonter les fex. Tous les fex sont maintenant up et le switch tourne la config datant de 16:36. Nous allons rejouer les changements depuis.

Le réseau est maintenant de nouveau stable. L'équipe travaille maintenant à remonter les hosts.
Posted Sep 28, 2014 - 16:36 UTC