OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
142.4.216.0/24 & 217.0/24 , 198.27.74.0/24 & 75.0/24
Scheduled Maintenance Report for Network & Infrastructure
Completed
Les 2 couples de nexus 5548 gérant ces 4 réseaux sont affectées par un bug cisco: CSCuo46284
Il n'y pas d'impact sur le forwarding, cependant les robots de configuration échoues par moment a effectuer certaines opérations.

Nous devons reloader dans un premier temps chaque switch. Il n'y aura pas d'impact, grace a la VPC et fex en dual home.
Puis nous les mettrons a jour en ISSU. nous avons 2 step ISSU a faire consécutivement pour arriver en 7.1.3.n1.4

- lundi 30 mai 9hAM CET (3h AM DET): reload des 4 switchs
- mardi 31 mai 9hAM CET (3h AM DET): ISSU sur les switch des reseaux: 142.4.216.0/24 & 217.0/24
- mercredi 1 juin 9hAM CET (3h AM DET): ISSU sur les switch des reseaux: 198.27.74.0/24 & 75.0/24

Update(s):

Date: 2016-06-08 09:58:55 UTC
Apres un 2nd upgrade, le fex 11 a bien été mis a jour.
Nous avons des traces a analyser avec Cisco.

L'upgrade est a présent terminée

Date: 2016-06-08 08:07:14 UTC
un fex n'a pas passe l'upgrade ( timeout et a reboot )
odule 109: Non-disruptive upgrading.
FAIL. Return code 0x42000022 (FEX timed out during hitless linecard upgrade).

Remaining action::
\"Module(s) 111 still need to be upgraded\".

Install has failed. Return code 0x40930020 (Non-disruptive upgrade of a module failed).
Please identify the cause of the failure, and try 'install all' again.


Date: 2016-06-08 06:51:34 UTC
Nous allons demarrer l'intervention sur 198.27.74.0/24 & 75.0/24
Le sw B doit etre reloade de nouveau

Date: 2016-06-07 09:30:46 UTC
le couple est a jour en 7.1.3.n1.4

Software
BIOS: version 3.6.0
Power Sequencer Firmware:
Module 1: v3.0
Module 2: v2.0
Microcontroller Firmware: version v1.2.0.1
QSFP Microcontroller Firmware:
Module not detected
CXP Microcontroller Firmware:
Module not detected
kickstart: version 7.1(3)N1(4)
system: version 7.1(3)N1(4)

Demain nous continuons sur le couple: 198.27.74.0/24 & 75.0/24

Date: 2016-06-07 09:10:00 UTC
A est up to date
B en cours

Date: 2016-06-07 08:30:32 UTC
Le couple est a jour en 7.0.7.n1.1.

Nous lancons de nouveau l'ISSU pour passer en 7.1.3.n1.4

Date: 2016-06-07 08:10:09 UTC
Switch B est a jour, on passe au A

Date: 2016-06-07 07:55:37 UTC
il est finalement passe
[local7.crit] === : 2016 Jun 7 09:51:21 CEST: %SATCTRL-FEX106-2-SATCTRL_IMAGE: FEX106 Image update complete. Install pending

l'image est push sur tt les fexs, upgrade des fex en cours vers la nouvelle version

Date: 2016-06-07 07:51:17 UTC
meme chose en relançant l'install depuis le B
feeling qu'on a une pb d'optique:

Fex Uplink: 2
Fabric Port: --
sfp is present
name is CISCO-FINISAR
type is Fabric Extender Transceiver
part number is FTLX8570D3BCL-C2
revision is A
serial number is FNS17231UR3
nominal bitrate is 10300 MBits/sec
cisco id is --
cisco extended id number is 4

SFP Detail Diagnostics Information
----------------------------------------------------------------------------
Alarms Warnings
High Low High Low
----------------------------------------------------------------------------
Temperature 36.85 C 75.00 C 5.00 C 70.00 C 10.00 C
Voltage 3.30 V 3.63 V 2.97 V 3.46 V 3.13 V
Current 7.92 mA 11.80 mA 4.00 mA 10.80 mA 5.00 mA
Tx Power -2.53 dBm 2.69 dBm -11.30 dBm -1.30 dBm -7.30 dBm
Rx Power -13.09 dBm - 2.99 dBm -13.97 dBm -1.00 dBm -9.91 dBm
----------------------------------------------------------------------------
Note: ++ high-alarm; + high-warning; -- low-alarm; - low-warning


Date: 2016-06-07 07:34:05 UTC
l'install

Supervisor non-disruptive upgrade successful.

Pre-loading modules.
FAIL. Return code 0x4200000E (Image download failed on the FEX).

Remaining action::
\"Module(s) 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 111 still need to be upgraded\".

Install has failed. Return code 0x40930069 (Preload of module image failed).
Please identify the cause of the failure, and try 'install all' again.

Dans les log, on voit que c'est uniquement le fex 106.
[local7.err] === : 2016 Jun 7 09:27:19 CEST: %DAEMON-3-SYSTEM_MSG: tftpd: read(ack): Connection refused - in.tftpd[4884]
[local7.crit] === : 2016 Jun 7 09:28:12 CEST: %SATCTRL-FEX106-2-SATCTRL_IMAGE: FEX106 Image update failed [/isan/plugin_img/fexth.bin]: File transfer error

Nous relançons l'install depuis el B, sinon on lance depuis el A





Date: 2016-06-07 07:18:28 UTC
Do you want to continue with the installation (y/n)? [n] y

Install is in progress, please wait.

Performing runtime checks.
[####################] 100% -- SUCCESS

Notifying services about the upgrade.
[####################] 100% -- SUCCESS


Date: 2016-06-07 07:14:39 UTC
nous démarrons sur le switch B

-n5-EG# install all system n5000-uk9.7.0.7.N1.1.bin kickstart n5000-uk9-kickstart.7.0.7.N1.1.bin

Verifying image bootflash:/n5000-uk9-kickstart.7.0.7.N1.1.bin for boot variable \"kickstart\".
[####################] 100% -- SUCCESS

Verifying image bootflash:/n5000-uk9.7.0.7.N1.1.bin for boot variable \"system\".


Date: 2016-06-07 07:11:46 UTC
reload done, on attend que les buffer pile down et on lance l'ISSU

Date: 2016-06-07 06:40:43 UTC
Nous devons effectuer de nouveau un reload sur le switch B de 142.4.216.0/24 & 217.0/2

meme bug, le sfp uC est a 0.0.0.0
SFP uC: Module 1: v0.0.0.0

pas de downtime prevu.

Date: 2016-06-06 08:09:06 UTC
Nous allons effectuer la maj des demain:
- mardi 07 mai 9hAM CET (3h AM DET): ISSU sur les switch des reseaux: 142.4.216.0/24 & 217.0/24
- mercredi 08 juin 9hAM CET (3h AM DET): ISSU sur les switch des reseaux: 198.27.74.0/24 & 75.0/24



Date: 2016-05-31 01:13:30 UTC
Nous allons decaler la date de maintenance sur les 2 couples.
La nouvelle date sera communiquée asap

Date: 2016-05-30 09:32:57 UTC
aucun diff de conf, donc il est assez etrange de voir les crashs ports security.
Nous avons upload le core file du crash pour analyse.

Aussi, nous avons uppe les fex 1 par 1 et plus de crash.

les switchs appellent a la mise a jour, cela sera fait demain et après-demain.

Date: 2016-05-30 08:51:44 UTC
le Switch B de 198.27.74.0/24 & 75.0/24 crash en boucle sur eth_portsec

Nous avons stabilisés en coupant les po vers les fex sur le switch B,


Date: 2016-05-30 08:19:00 UTC
Switch B de 198.27.74.0/24 & 75.0/24 DOING

Switch A de 142.4.216.0/24 & 217.0/24 DONE
Switch B de 142.4.216.0/24 & 217.0/24 DONE
Switch A de 198.27.74.0/24 & 75.0/24 DONE

Date: 2016-05-30 08:03:18 UTC
switch B de 142.4.216.0/24 & 217.0/24 DOING
Switch A de 198.27.74.0/24 & 75.0/24 DOING => nous fixons les mismatch speed

Switch B de 198.27.74.0/24 & 75.0/24 STANDBY


switch A de 142.4.216.0/24 & 217.0/24 DONE

Date: 2016-05-30 07:49:53 UTC
Switch A de 142.4.216.0/24 & 217.0/24 est UP, nous fixons les dernier mismatch speed.

Switch A de 198.27.74.0/24 & 75.0/24 DOING

Date: 2016-05-30 07:16:28 UTC
nous commençons le reload, switch A de 142.4.216.0/24 & 217.0/24
Posted May 27, 2016 - 10:42 UTC
This scheduled maintenance affected: Infrastructure || BHS (BHS1).