OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
pcc-1a-n7
Incident Report for Network & Infrastructure
Resolved
Nous rencontrons des problèmes avec la vPC sur pcc-1a/1b-n7

Nous investiguons.

Update(s):

Date: 2016-08-10 20:54:13 UTC
pcc-1a-n7# sh system redundancy status
Redundancy mode
---------------
administrative: HA
operational: HA

This supervisor (sup-1)
-----------------------
Redundancy state: Active
Supervisor state: Active
Internal state: Active with HA standby

Other supervisor (sup-2)
------------------------
Redundancy state: Standby
Supervisor state: HA standby
Internal state: HA standby

HA standby okay !

all done :) la redondance est de nouveau opérationnelle sur le pcc-1a-n7

Date: 2016-08-10 20:52:51 UTC
pcc-1a-n7# sh module
Mod Ports Module-Type Model Status
--- ----- ----------------------------------- ------------------ ----------
1 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
2 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
3 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
4 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
5 0 Supervisor Module-2 N7K-SUP2E active *
6 0 Supervisor Module-2 powered-up
7 24 10 Gbps Ethernet Module N7K-M224XP-23L ok
8 24 10 Gbps Ethernet Module N7K-M224XP-23L ok
9 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
10 24 10 Gbps Ethernet Module N7K-M224XP-23L ok

Mod Sw Hw
--- -------------- ------
1 6.2(16) 1.0
2 6.2(16) 1.0
3 6.2(16) 1.1
4 6.2(16) 1.1
5 6.2(16) 6.0
7 6.2(16) 1.1
8 6.2(16) 1.0
9 6.2(16) 1.2
pcc-1a-n7#
pcc-1a-n7#
pcc-1a-n7# sh system redundancy status
Redundancy mode
---------------
administrative: HA
operational: None

This supervisor (sup-1)
-----------------------
Redundancy state: Active
Supervisor state: Active
Internal state: Active with HA standby

Other supervisor (sup-2)
------------------------
Redundancy state: Standby
Supervisor state: HA standby
Internal state: HA synchronization in progress

La nouvelle sup est up en slot6 , et la syncho est en cours

Date: 2016-08-10 20:44:34 UTC
pcc-1a-n7.routers.ovh.net ba [local7.crit] === : 2016 Aug 10 22:43:07.017 CEST: %PLATFORM-2-MOD_REMOVE: Module 6 removed (Serial number JAF1714AGLQ)

la carte est out

on swap la logflash et on plug la nouvelle supp

Date: 2016-08-10 20:40:43 UTC
nous remplaçons la sup

Date: 2016-08-10 20:38:36 UTC
pcc-1a-n7# out-of-service module 6
pcc-1a-n7#
pcc-1a-n7#
pcc-1a-n7# sh module
Mod Ports Module-Type Model Status
--- ----- ----------------------------------- ------------------ ----------
1 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
2 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
3 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
4 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
5 0 Supervisor Module-2 N7K-SUP2E active *
6 0 Supervisor Module-2 N7K-SUP2E powered-dn <<<<<<<<<<<<<<
7 24 10 Gbps Ethernet Module N7K-M224XP-23L ok

pcc-1a-n7.routers.ovh.net ba [local7.crit] === : 2016 Aug 10 22:37:10.870 CEST: %PLATFORM-2-MOD_PWRDN: Module 6 powered down (Serial number JAF1714AGLQ)
pcc-1a-n7.routers.ovh.net bd [local7.notice] === : 2016 Aug 10 22:37:10.870 CEST: %PLATFORM-5-MOD_STATUS: Module 6 current-status is MOD_STATUS_CONFIGPOWERED_DOWN
pcc-1a-n7.routers.ovh.net bd [local7.notice] === : 2016 Aug 10 22:37:10.870 CEST: %PLATFORM-5-MOD_STATUS: Module 6 current-status is MOD_STATUS_POWERED_DOWN
pcc-1a-n7.routers.ovh.net ba [local7.crit] === : 2016 Aug 10 22:37:12.866 CEST: %PLATFORM-2-MOD_REMOVE: Module 6 removed (Serial number JAF1714AGLQ)


Date: 2016-08-10 20:36:27 UTC
pcc-1a-n7# sh system redundancy status
Redundancy mode
---------------
administrative: HA
operational: HA

This supervisor (sup-1)
-----------------------
Redundancy state: Active
Supervisor state: Active
Internal state: Active with HA standby

Other supervisor (sup-2)
------------------------
Redundancy state: Standby
Supervisor state: HA standby
Internal state: HA standby

good, je coupe le slot 6 ( la carte qui es standby )

Date: 2016-08-10 20:34:49 UTC
pcc-1a-n7# sh system redundancy status
Redundancy mode
---------------
administrative: HA
operational: None

This supervisor (sup-1)
-----------------------
Redundancy state: Active
Supervisor state: Active
Internal state: Active with HA standby

Other supervisor (sup-2)
------------------------
Redundancy state: Standby
Supervisor state: HA standby
Internal state: HA synchronization in progress <<<<<<<<<<<<<<<

il faut attendre qq minutes que la synchro se fasse

Date: 2016-08-10 20:33:46 UTC
cc-1a-n7#
pcc-1a-n7#
pcc-1a-n7# system switchover
pcc-1a-n7#
pcc-1a-n7#

done

la sup en mod 5 est active , la sup en slot 6 reboot

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
pcc-1a-n7 login:
>>>
>>>
>>>
NX7k SUP BIOS version ( 2.12 ) : Build - 05/29/2013 11:58:20
PM FPGA Version : 0x00000025
Power sequence microcode revision - 0x00000009 : card type - 10156EEA0
Booting Spi Flash : Primary
CPU Signature - 0x000106e4: Version - 0x000106e0
CPU - 2 : Cores - 4 : HTEn - 1 : HT - 2 : Features - 0xbfebfbff
FSB Clk - 532 Mhz : Freq - 2139 Mhz - 2128 Mhz
MicroCode Version : 0x00000002
Memory - 32768 MB : Frequency - 1067 MHZ
Loading Bootloader: Done
IO FPGA Version : 0x1000d
PLX Version : 861910b5


on va attendre le boot puis que la HA soit okay avant de couper le slot6

Date: 2016-08-10 20:30:27 UTC
Nous débutons l'intervention par le switchover


Date: 2016-08-08 13:08:47 UTC
Nous allons remplacer la carte supervisor en slot 6 ce mercredi 10 Aout a partir de 22h.
Nous ferrons le switchover de la sup Active du slot 6 vers le slot 5 juste avant le remplacement.

Il n'y a pas d'impact a prévoir, cependant nous ouvrirons un ticket au TAC Cisco en préventif.

Date: 2016-08-04 21:34:52 UTC
Nous n'effectuons pas de retour en production sur la nouvelle carte et surveillons l'infrastructure.

Date: 2016-08-04 21:15:32 UTC
La carte est inseree et prete pour la haute disponibilité. Pas d'impact constate.

Date: 2016-08-04 20:38:06 UTC
Nous allons demarrer l'intervention et prochainement inserer la carte.

Date: 2016-08-04 16:48:28 UTC
Apres un début d'investigation par Cisco, le supervisor ( mod 6 ) actuellement en prod n'est pas non plus au mieux de sa forme.

Nous allons donc insérer la nouvelle carte sup (mod5) ce soir a partir de 22h30 afin de rétablir la redondance.
Si la mod 6 s’avère défectueuse, nous pourront faire le switchover.

Nous ouvrons également un ticket au tac Cisco en préventif

Date: 2016-08-04 13:43:02 UTC
Nous sommes toujours en cours d'investigation avec Cisco.

Le scénario pour l'instant se résume à la timeline suivante :

- le chassis a a crashé, peut être à cause d'une SUP défaillante. Au reload, le châssis a tenté de booter sur le SUP1 sans succès 3 fois avant de redémarrer sur la SUP2.
- pendant ce laps de temps, une carte sur le b n'a pas supporté le burst engendré par la perte du chassis a, la linecard a crashé et rebooté.

Nous sommes toujours en cours d'analyse sur la SUP et le chassis, afin de savoir lequel est défaillant et quelles seront les actions futures (changement du châssis ou simple remplacement de la SUP défaillante).


Date: 2016-08-03 11:09:12 UTC
Cisco a démarré les investigations.

Nous avons le spare à disposition au cas ou.

Nous nous dirigeons vers un remplacement de la SUP 1 sur le chassis cette nuit ou la nuit prochaine en fonction des investigations / préconisations du constructeur.

Date: 2016-08-02 16:16:04 UTC
Nous avons eu un switchover de la carte SUP 1 du chassis pcc-1a-n7. La carte semble HS et ne boote pas.

La carte SUP2 prend normalement le relais sans coupure, mais dans le cas présent, tous les ports de pcc-1a-n7 ont flappés et sont passés en init pendant plusieurs minutes.

Nous avons retiré la carte SUP 1 du chassis qui était dans un état instable. Tout est revenu à la normal une fois la carte SUP 1 retiré.

Nous suspectons un switchover qui s'est mal passé. La carte SUP 1 essayait probablement de booter entrainant des impacts sur les communications entre les linecards et la SUP 2.

Nous allons lancer les actions suivantes maintenant que le service est rétabli :
- RMA de la carte SUP 1 pour être à disposition au plus vite sur RBX pour sécuriser la nuit
- Analyse de la root cause avec Cisco
- Une fois la root cause analysée / trouvée, nous procéderons à la réinsertion de la SUP 1 par sa remplacante.

Le coeur de pcc en l'état est stable. Nous ne menons pas d'autres actions pour l'instant afin de stabiliser la situation.
Posted Aug 02, 2016 - 15:41 UTC
This incident affected: Infrastructure || RBX (RBX1, RBX2, RBX3, RBX4, RBX5, RBX6, RBX7, RBX8).