Hosted Private Cloud Status

OVHcloud Private Cloud Status

Current status

Legend

Operational
Degraded performance
Partial Outage
Major Outage
Under maintenance

pcc-1a/b-n7

Incident Report for Hosted Private Cloud

Resolved

Nous avons un incident sur l'application de la config sur les switches.

\"ERROR: Configuration Failed with Error: Failure Returned from Policy Server\"
\"CEST: %VLAN_MGR-2-CRITICAL_MSG: Switchport Configuration Failed for msgid 0x37f0c9 rrtoken 0x37f0c9\"

Nous contactons le constructeur.

Update(s):

Date: 2013-11-12 12:03:25 UTC
Tout est up.

Date: 2013-11-12 02:13:03 UTC
Le pcc-1b a redémarré correctement. L'infra fonctionne normalement. Nous avons quelques optiques à remplacer suite au reboot.

Date: 2013-11-12 01:51:19 UTC
Nous redémarrons le pcc-1b.

Date: 2013-11-12 01:00:17 UTC
Le pcc-1a-n7 est up. Le reload a effectivement permis de fixer la stucture de données de la config vlan. Nous remontons les ports progressivement puis nous tenterons de nouveau la manip sur pcc-1b-n7.

Date: 2013-11-12 00:48:46 UTC
Nous avons décidé de tenter l'isolement de l'autre switch de la paire, le pcc-1a-n7 qui a le role \"primary\" dans la paire vPC. Cette fois, nous n'avons pas eu de problème. Nous sommes actuellement en train de rebooter ce chassis afin de fixer le problème de structure de données sur la config des vlans.

Date: 2013-11-11 23:56:13 UTC
Nous avons continué les basculements avec Cisco.
Les premières cartes sont terminées et tous les basculements se sont bien déroulés.

Sur les dernières cartes, suite à des pertes de connectivité vers pcc-106-n5 pcc-107-n5 pcc-108-n5 pcc-109-n5 pcc-116-n5 et pcc-117-n5, nous avons réactivé tous les ports qui avaient été coupé afin de rétablir le trafic le plus rapidement possible.

Nous travaillons avec Cisco pour comprendre ce qui provoque ce dysfonctionnement qui est liés à celui des N5 d'accès (25, 28 et 29).

Date: 2013-11-11 23:27:10 UTC
Nous avons commencé à couper les ports progressivement sur le pcc-1b-n7 afin de l'isoler du réseau. Cela n'aurait pas du avoir d'impact étant donné que le trafic est switché en // par le pcc-1a-n7.
Cependant, nous avons quand même perdu la connectivité vers 3 des switchs N5 d'accès (25, 28 et 29). Nous avons donc réactivé tous les ports qui avait été coupé afin de rétablir le trafic le plus rapidement possible. Nous travaillons avec Cisco pour comprendre ce qui provoque ce problème.

Date: 2013-11-11 22:58:57 UTC
Nous démarrons l'intervention. Nous allons redémarrer le pcc-1b-n7.

Date: 2013-11-08 22:36:08 UTC
Nous reportons cette intervention la nuit du lundi 11 au mardi 12 novembre à 00:00 CET.

Date: 2013-11-08 20:30:44 UTC
Cisco a identifié la source des erreurs comme étant des maximums atteints avec la précendente version du NXOS.
Suite à la mise à jour (http://travaux.ovh.net/?do=details&id=9631), les nexus 7000 n'ont pas complètement intégré les nouvelles configurations.

Un reload des châssis est nécessaire afin d'appliquer les nouvelles configurations.
Le reload se fera avec les équipes cisco.

Cette opération est planifiée à minuit dans la nuit de vendredi 8 novembre au samedi 9 novembre.

Date: 2013-11-08 18:15:33 UTC
Nous travaillons avec cisco à la résolution du problème. Le case est maintenant en P1 ce qui est la priorité maximale. Il n'est plus possible pour l'instant de modifier la configuration des vlans sur les 2 switchs core du PCC Roubaix. Nous ne savons pas encore si il y a un lien avec l'upgrade NXOS, l'OS qui tourne sur ces équipements ou bien s'il s'agit d'un problème lié aux nouvelles configurations de routage ou bien autre chose.
Il n'y a pas d'impact sur le trafic mais l'ajout de nouvelles ressources est pour le moment bloqué.

Posted Nov 08, 2013 - 15:17 UTC