rssLink RSS for all categories
 
icon_red
icon_green
icon_blue
icon_red
icon_orange
icon_green
icon_green
icon_red
icon_green
icon_red
icon_green
icon_green
icon_green
icon_red
icon_green
icon_orange
icon_green
icon_blue
icon_red
icon_red
icon_green
icon_green
icon_green
icon_blue
icon_orange
icon_green
icon_green
icon_red
icon_green
icon_red
icon_red
 

FS#19504 — pcc-1a-n7

Attached to Project— Reseau Internet et Baies
Incident
Roubaix
CLOSED
100%
Nous rencontrons des problèmes avec la vPC sur pcc-1a/1b-n7

Nous investiguons.
Date:  Wednesday, 10 August 2016, 23:04PM
Reason for closing:  Done
Comment by OVH - Tuesday, 02 August 2016, 18:16PM

Nous avons eu un switchover de la carte SUP 1 du chassis pcc-1a-n7. La carte semble HS et ne boote pas.

La carte SUP2 prend normalement le relais sans coupure, mais dans le cas présent, tous les ports de pcc-1a-n7 ont flappés et sont passés en init pendant plusieurs minutes.

Nous avons retiré la carte SUP 1 du chassis qui était dans un état instable. Tout est revenu à la normal une fois la carte SUP 1 retiré.

Nous suspectons un switchover qui s'est mal passé. La carte SUP 1 essayait probablement de booter entrainant des impacts sur les communications entre les linecards et la SUP 2.

Nous allons lancer les actions suivantes maintenant que le service est rétabli :
- RMA de la carte SUP 1 pour être à disposition au plus vite sur RBX pour sécuriser la nuit
- Analyse de la root cause avec Cisco
- Une fois la root cause analysée / trouvée, nous procéderons à la réinsertion de la SUP 1 par sa remplacante.

Le coeur de pcc en l'état est stable. Nous ne menons pas d'autres actions pour l'instant afin de stabiliser la situation.


Comment by OVH - Wednesday, 03 August 2016, 13:09PM

Cisco a démarré les investigations.

Nous avons le spare à disposition au cas ou.

Nous nous dirigeons vers un remplacement de la SUP 1 sur le chassis cette nuit ou la nuit prochaine en fonction des investigations / préconisations du constructeur.


Comment by OVH - Thursday, 04 August 2016, 15:43PM

Nous sommes toujours en cours d'investigation avec Cisco.

Le scénario pour l'instant se résume à la timeline suivante :

- le chassis a a crashé, peut être à cause d'une SUP défaillante. Au reload, le châssis a tenté de booter sur le SUP1 sans succès 3 fois avant de redémarrer sur la SUP2.
- pendant ce laps de temps, une carte sur le b n'a pas supporté le burst engendré par la perte du chassis a, la linecard a crashé et rebooté.

Nous sommes toujours en cours d'analyse sur la SUP et le chassis, afin de savoir lequel est défaillant et quelles seront les actions futures (changement du châssis ou simple remplacement de la SUP défaillante).


Comment by OVH - Thursday, 04 August 2016, 18:48PM

Apres un début d'investigation par Cisco, le supervisor ( mod 6 ) actuellement en prod n'est pas non plus au mieux de sa forme.

Nous allons donc insérer la nouvelle carte sup (mod5) ce soir a partir de 22h30 afin de rétablir la redondance.
Si la mod 6 s’avère défectueuse, nous pourront faire le switchover.

Nous ouvrons également un ticket au tac Cisco en préventif


Comment by OVH - Thursday, 04 August 2016, 22:38PM

Nous allons demarrer l'intervention et prochainement inserer la carte.


Comment by OVH - Thursday, 04 August 2016, 23:15PM

La carte est inseree et prete pour la haute disponibilité. Pas d'impact constate.


Comment by OVH - Thursday, 04 August 2016, 23:34PM

Nous n'effectuons pas de retour en production sur la nouvelle carte et surveillons l'infrastructure.


Comment by OVH - Monday, 08 August 2016, 15:08PM

Nous allons remplacer la carte supervisor en slot 6 ce mercredi 10 Aout a partir de 22h.
Nous ferrons le switchover de la sup Active du slot 6 vers le slot 5 juste avant le remplacement.

Il n'y a pas d'impact a prévoir, cependant nous ouvrirons un ticket au TAC Cisco en préventif.


Comment by OVH - Wednesday, 10 August 2016, 22:30PM

Nous débutons l'intervention par le switchover


Comment by OVH - Wednesday, 10 August 2016, 22:33PM

cc-1a-n7#
pcc-1a-n7#
pcc-1a-n7# system switchover
pcc-1a-n7#
pcc-1a-n7#

done

la sup en mod 5 est active , la sup en slot 6 reboot

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
pcc-1a-n7 login:
>>>
>>>
>>>
NX7k SUP BIOS version ( 2.12 ) : Build - 05/29/2013 11:58:20
PM FPGA Version : 0x00000025
Power sequence microcode revision - 0x00000009 : card type - 10156EEA0
Booting Spi Flash : Primary
CPU Signature - 0x000106e4: Version - 0x000106e0
CPU - 2 : Cores - 4 : HTEn - 1 : HT - 2 : Features - 0xbfebfbff
FSB Clk - 532 Mhz : Freq - 2139 Mhz - 2128 Mhz
MicroCode Version : 0x00000002
Memory - 32768 MB : Frequency - 1067 MHZ
Loading Bootloader: Done
IO FPGA Version : 0x1000d
PLX Version : 861910b5


on va attendre le boot puis que la HA soit okay avant de couper le slot6


Comment by OVH - Wednesday, 10 August 2016, 22:34PM

pcc-1a-n7# sh system redundancy status
Redundancy mode
---------------
administrative: HA
operational: None

This supervisor (sup-1)
-----------------------
Redundancy state: Active
Supervisor state: Active
Internal state: Active with HA standby

Other supervisor (sup-2)
------------------------
Redundancy state: Standby
Supervisor state: HA standby
Internal state: HA synchronization in progress <<<<<<<<<<<<<<<

il faut attendre qq minutes que la synchro se fasse


Comment by OVH - Wednesday, 10 August 2016, 22:36PM

pcc-1a-n7# sh system redundancy status
Redundancy mode
---------------
administrative: HA
operational: HA

This supervisor (sup-1)
-----------------------
Redundancy state: Active
Supervisor state: Active
Internal state: Active with HA standby

Other supervisor (sup-2)
------------------------
Redundancy state: Standby
Supervisor state: HA standby
Internal state: HA standby

good, je coupe le slot 6 ( la carte qui es standby )


Comment by OVH - Wednesday, 10 August 2016, 22:38PM

pcc-1a-n7# out-of-service module 6
pcc-1a-n7#
pcc-1a-n7#
pcc-1a-n7# sh module
Mod Ports Module-Type Model Status
--- ----- ----------------------------------- ------------------ ----------
1 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
2 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
3 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
4 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
5 0 Supervisor Module-2 N7K-SUP2E active *
6 0 Supervisor Module-2 N7K-SUP2E powered-dn <<<<<<<<<<<<<<
7 24 10 Gbps Ethernet Module N7K-M224XP-23L ok

pcc-1a-n7.routers.ovh.net ba [local7.crit] === : 2016 Aug 10 22:37:10.870 CEST: %PLATFORM-2-MOD_PWRDN: Module 6 powered down (Serial number JAF1714AGLQ)
pcc-1a-n7.routers.ovh.net bd [local7.notice] === : 2016 Aug 10 22:37:10.870 CEST: %PLATFORM-5-MOD_STATUS: Module 6 current-status is MOD_STATUS_CONFIGPOWERED_DOWN
pcc-1a-n7.routers.ovh.net bd [local7.notice] === : 2016 Aug 10 22:37:10.870 CEST: %PLATFORM-5-MOD_STATUS: Module 6 current-status is MOD_STATUS_POWERED_DOWN
pcc-1a-n7.routers.ovh.net ba [local7.crit] === : 2016 Aug 10 22:37:12.866 CEST: %PLATFORM-2-MOD_REMOVE: Module 6 removed (Serial number JAF1714AGLQ)


Comment by OVH - Wednesday, 10 August 2016, 22:40PM

nous remplaçons la sup


Comment by OVH - Wednesday, 10 August 2016, 22:44PM

pcc-1a-n7.routers.ovh.net ba [local7.crit] === : 2016 Aug 10 22:43:07.017 CEST: %PLATFORM-2-MOD_REMOVE: Module 6 removed (Serial number JAF1714AGLQ)

la carte est out

on swap la logflash et on plug la nouvelle supp


Comment by OVH - Wednesday, 10 August 2016, 22:52PM

pcc-1a-n7# sh module
Mod Ports Module-Type Model Status
--- ----- ----------------------------------- ------------------ ----------
1 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
2 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
3 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
4 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
5 0 Supervisor Module-2 N7K-SUP2E active *
6 0 Supervisor Module-2 powered-up
7 24 10 Gbps Ethernet Module N7K-M224XP-23L ok
8 24 10 Gbps Ethernet Module N7K-M224XP-23L ok
9 32 1/10 Gbps Ethernet Module N7K-F132XP-15 ok
10 24 10 Gbps Ethernet Module N7K-M224XP-23L ok

Mod Sw Hw
--- -------------- ------
1 6.2(16) 1.0
2 6.2(16) 1.0
3 6.2(16) 1.1
4 6.2(16) 1.1
5 6.2(16) 6.0
7 6.2(16) 1.1
8 6.2(16) 1.0
9 6.2(16) 1.2
pcc-1a-n7#
pcc-1a-n7#
pcc-1a-n7# sh system redundancy status
Redundancy mode
---------------
administrative: HA
operational: None

This supervisor (sup-1)
-----------------------
Redundancy state: Active
Supervisor state: Active
Internal state: Active with HA standby

Other supervisor (sup-2)
------------------------
Redundancy state: Standby
Supervisor state: HA standby
Internal state: HA synchronization in progress

La nouvelle sup est up en slot6 , et la syncho est en cours


Comment by OVH - Wednesday, 10 August 2016, 22:54PM

pcc-1a-n7# sh system redundancy status
Redundancy mode
---------------
administrative: HA
operational: HA

This supervisor (sup-1)
-----------------------
Redundancy state: Active
Supervisor state: Active
Internal state: Active with HA standby

Other supervisor (sup-2)
------------------------
Redundancy state: Standby
Supervisor state: HA standby
Internal state: HA standby

HA standby okay !

all done :) la redondance est de nouveau opérationnelle sur le pcc-1a-n7