FS#5175 — mise à jour backbone
Attached to Project— Reseau Internet et Baies
| Maintenance | |
| Tout le réseau | |
| CLOSED | |
![]() |
Nous allons mettre à jour les routeurs de la backbone sur la
derniere version d'IOS. Le but est de fixer tous les bugs liés
à l'IPv6 puis reformater la TCAM CEF avec une configuration
spécifique.
#sh mls cef maximum-routes
FIB TCAM maximum routes :
=======================
Current :-
-------
IPv4 - 911k
MPLS - 1k
IPv6 - 50k
IP multicast - 1k
puis ajouter sur tous les routeurs.
no spanning-tree vlan 1-4094
Date: Friday, 03 June 2011, 02:29AMderniere version d'IOS. Le but est de fixer tous les bugs liés
à l'IPv6 puis reformater la TCAM CEF avec une configuration
spécifique.
#sh mls cef maximum-routes
FIB TCAM maximum routes :
=======================
Current :-
-------
IPv4 - 911k
MPLS - 1k
IPv6 - 50k
IP multicast - 1k
puis ajouter sur tous les routeurs.
no spanning-tree vlan 1-4094
Reason for closing: Done
RSS for all categories

nyk-1-6k
rbx-s4-6k l'un de 2 routeurs de HG
rbx-s5-6k l'un de 2 routeurs pCC
mar-1-6k l'un des routeurs ISP à Marseille
L'une des cartes 10G sur mar-1-6k est morte.
Feb 25 03:02:10 GMT: %PM_SCP-SP-1-LCP_FW_ERR: System resetting module 3 to recover from error: Linecard received system exception. Errcode =
2509000001
Feb 25 03:02:10 GMT: %OIR-SP-3-PWRCYCLE: Card in module 3, is being power-cycled 'Off (Module Reset due to exception or user request)'
Feb 25 03:02:10 GMT: %C6KPWR-SP-4-DISABLED: power to module in slot 3 set Off (Module Reset due to exception or user request)
Feb 25 03:03:25 GMT: %PM_SCP-SP-1-LCP_FW_ERR: System resetting module 3 to recover from error: Linecard received system exception. Errcode =
2509000001
Feb 25 03:03:25 GMT: %OIR-SP-3-PWRCYCLE: Card in module 3, is being power-cycled 'Off (Module Reset due to exception or user request)'
Feb 25 03:03:25 GMT: %C6KPWR-SP-4-DISABLED: power to module in slot 3 set Off (Module Reset due to exception or user request)
rbx-s6-6k l'un de 2 routeurs du pCC
cette nuit on met à jour 3 routeurs de p19:
- p19-7-6k l'un de 2 routeurs de p19
- p19-52-6k l'un de 3 routeurs de l'hébergement mutualisé et ovh
- p19-57-6k l'un de 3 routeurs de l'hébergement mutualisé et ovh
Pendant le redemarrage et la mise à jour, le routage est assuré
par les autres routeurs. Ceci dit on n'evitera pas de petites
coupures qui sont dues au temps necessaire pour converger le
reseau (à enlever les routes cassées et retrouver les routes
qui fonctionnent encore). environ 30 secondes par ici et là.
C'est parti.
p19-52
fait
on attaque p19-57
p19-57 fait.
le p19-7 sera fait une autre nuit. il faut qu'on securise
mieux un autre routeur via p19-2 avant de redemarrer p19-7
on va mettre à jour le p19-7
c'est fait.
rbx-1-6k et rbx-2-6k ne vont pas bien suite à la mise à jour
d'IOS. on a de problemes de l'incompatibilitée de version
hardware de certaines cartes avec la version software. Nous
sommes en cours de resolution de ce probleme avec TAC de
cisco.
En parallele une nouvelle version d'IOS est sorti et puisque
le routeur rbx-2-6k a planté
http://travaux.ovh.net/?do=details&id=5328
avec une erreur software, dans le doute on va mettre à jour
rbx-2-6k puis rbx-1-6k avec SXI6. Ceci nous permettra peut etre
fixé un autre probleme qu'on a depuis la mise à jour: toutes
les nuits à 4h00 pile rbx-1-6k est full en CPU pendant quelques
minutes. C'est peut etre lié au probleme hardware ou peut etre
software.
rbx-2-6k fait
rbx-1-6k fait
nous avons un probleme de HSRP sur les routeurs HG
rbx-s3/s4. Nous allons donc mettre à jour IOS sur
ces 2 routeurs pour voir si ça fixe le probleme.
rbx-s4 fait
rbx-s3 en cours
petit probleme de boot. il faut retirer et remettre le disk
dans la carte sup.
Initializing ATA monitor library...
monlib.open(): Open Error = -35
loadprog: error - on file open
Exit at the end of BOOT string
rommon 1 > dir disk0:
Command error complete on disk0:
open: read error...requested 0x4 bytes, got 0xffffffff
trouble reading device magic number
rommon 2 > dir disk0:
Initializing ATA monitor library...
Directory of disk0:
[...]
rommon 3 > reset
Initializing ATA monitor library...
Self extracting the image... [OK]
fini. le probleme HSRP est effectivement fixé.
on va voir sur plus long terme. si tout va bien
on va retenter GLBP.
vss-1/2/3/4 sont à jour.
il nous reste gsw-1/th1-1/lyo-1/mil-1. On va essayer de
faire ces routeurs cette nuit.
Nous commencons l'intervention sur th1-1-6k.
th1 up, on attaque gsw-1-6k
gsw-1 est à jour
Nous redirigeons le trafic routé par lyo-1-6k afin de mettre à jour le routeur.
La mise à jour de lyo-1 est reportée.
on va mettre à jour vie-1-6k
on met à jour pra-1-6k
on met à jour zur-1-6k
fait
on met à jour mil-1-6k
on met à jour mad-1-6k
on met à jour le var-1-6k.
mil-1-6k up et remis dans la boucle de routage
mad-1-6k up et remis dans la boucle de routage
var-1-6k up et remis dans la boucle de routage
on met à jour lyo-1-6k
lyo-1-6k est up et remis dans la boucle de routage
nous allons mettre à jour fra-1-6k
fait.
il reste
fra-5
ams-1
ams-5
p19-2
en suite c'est terminé
p19-2-6k
Jun 2 23:04:05 GMT: %EARL-DFC1-2-SWITCH_BUS_IDLE: Switching bus is idle for 5 seconds. The card grant is 0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [0:0x46] JA_DR_RI_0_STA_FCO = 0x3
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [0:0x85] JA_DR_RI_1_STA_FCO = 0x0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [0:0x28A] JA_FI_FT_RCV_RATE_SEL = 0xC
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [0:0x289] JA_FI_FT_XMIT_SHAPE = 0xFFF
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [0:0x4CB] JA_AG_PM_RAM_FULLNESS_0 = 0x0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [0:0x4CC] JA_AG_PM_RAM_FULLNESS_1 = 0x1F
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [0:0x4CD] JA_AG_PM_RAM_FULLNESS_2 = 0x0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [0:0x4CE] JA_AG_PM_RAM_FULLNESS_3 = 0x101
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [0:0x4F1] JA_AG_RM_RAM_FULLNESS_0 = 0x0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [0:0x4F2] JA_AG_RM_RAM_FULLNESS_1 = 0x0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [0:0x4F3] JA_AG_RM_RAM_FULLNESS_2 = 0x0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [0:0x4F4] JA_AG_RM_RAM_FULLNESS_3 = 0x0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [0:0x5F6] JA_TM_HI_FULLNESS = 0x0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [0:0x5F7] JA_TM_LO_FULLNESS = 0x0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [1:0x46] JA_DR_RI_0_STA_FCO = 0x0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [1:0x85] JA_DR_RI_1_STA_FCO = 0x3
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [1:0x28A] JA_FI_FT_RCV_RATE_SEL = 0xC
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [1:0x289] JA_FI_FT_XMIT_SHAPE = 0xFFF
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [1:0x4CB] JA_AG_PM_RAM_FULLNESS_0 = 0x0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [1:0x4CC] JA_AG_PM_RAM_FULLNESS_1 = 0x101
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [1:0x4CD] JA_AG_PM_RAM_FULLNESS_2 = 0x0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [1:0x4CE] JA_AG_PM_RAM_FULLNESS_3 = 0x102
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [1:0x4F1] JA_AG_RM_RAM_FULLNESS_0 = 0x0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [1:0x4F2] JA_AG_RM_RAM_FULLNESS_1 = 0x0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [1:0x4F3] JA_AG_RM_RAM_FULLNESS_2 = 0x0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [1:0x4F4] JA_AG_RM_RAM_FULLNESS_3 = 0x0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [1:0x5F6] JA_TM_HI_FULLNESS = 0x0
Jun 2 23:04:05 GMT: %PF_ASIC-DFC1-3-ASIC_DUMP: [1:0x5F7] JA_TM_LO_FULLNESS = 0x0
la carte #1 est morte
fra-5-6k en cours
cette nuit nous assitons à un festival de problemes.
2ème mise à jour qui se passe mal avec le g1 ça fait
3 problemes à gerer en moins d'1h.
ici, le routeur s'est dit qu'il ne va pas booter sans
intervention de sysadmin. vive les cables serie !
Jun 2 23:32:30 GMT: %OIR-SP-6-CONSOLE: Changing console ownership to switch processor
Jun 2 23:32:30 GMT: %SYS-SP-3-LOGGER_FLUSHED: System was paused for 00:00:00 to ensure console debugging output.
Jun 2 23:32:33 GMT: %SYS-SP-3-LOGGER_FLUSHING: System pausing to ensure console debugging output.
Jun 2 23:32:33 GMT: %SYS-SP-5-RELOAD: Reload requested by Delayed Reload. Reload Reason: Reload Command.
Jun 2 23:32:33 GMT: %OIR-SP-6-CONSOLE: Changing console ownership to switch processor
monitor: command "boot" aborted due to user interrupt
Exit at the end of BOOT string
rommon 1 > boot
Please reset before booting
rommon 2 > reset
System Bootstrap, Version 8.5(2)
Copyright (c) 1994-2007 by cisco Systems, Inc.
Cat6k-Sup720/SP processor with 1048576 Kbytes of main memory
[...]
fra-5-6k est stabilisé.
ams-1-6k en cours
bor-1-6k en cours
il reste ams-5-6k
c'est fini. ouff ! :)