OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
TH2-1-A9
Incident Report for Network & Infrastructure
Resolved
Nous avons des instabilités sur ce routeur

Nous investiguons

English version: http://status.ovh.net/?do=details&id=15174

Update(s):

Date: 2017-11-17 04:04:43 UTC
Apres quelques heures, le router semble stable. Nous continuons a monitorer

Date: 2017-11-17 01:22:06 UTC
Nous avons remis l'intégralité du trafic vers les PNIs ainsi que sur les IX à l'exception de FranceIX.
La VOIP et l'ADSL sont encore routés par Globalswitch, nous réactiverons le trafic sur TH2 avec les équipes concernées.

Date: 2017-11-17 00:33:20 UTC
Nous avons réactivé l'ensemble des ports entre th2-1-a9 et th2-1-n7.

Nous allons remettre progressivement le trafic.

Date: 2017-11-17 00:20:51 UTC
L'erreur n'est pas présente sur cette carte:

RP/0/RSP0/CPU0:th2-1-a9#show media location 0/1/cpu0
Fri Nov 17 01:19:38.756 CET

Media Information for 0/1/CPU0.
Image Current Part
Mountpoint FsType FsType Size State DrvrPid Mirror Flags
================================================================================
/lcdisk0: QNX4 QNX4 23.8G Mounted 0032789
/lcdisk0a: QNX4 QNX4 4.8G Mounted 0032789

Date: 2017-11-17 00:18:52 UTC
Nous remplaçons de nouveau la carte du slot1 (REF: A9K-8X100GE-L-SE ).

Date: 2017-11-17 00:15:10 UTC
Le routeur a été isolé.
Nous avons réalisé le \"online insertion and removal (oir)\" mais le problème est toujours présent.


Date: 2017-11-16 23:28:02 UTC
Nous commençons l'isolation des sessions BGPs sur th2-1-a9.
Les techniciens sont sur place.

Date: 2017-11-16 17:27:13 UTC
Plan d'action pour cette nuit :
11:30pm (UTC) : Nous isolerons le routeur puis ferons un \"online insertion and removal (oir)\" sur le slot1 de th2-1-a9 afin de corriger le problème d'accès disque).
-> Si le problème subsiste nous remplacerons de nouveau la carte en question.
Puis nous troubleshooterons un lien A9 <> N7 qui n'est pas remonté suite au remplacement de la carte.

Nous réactiverons tout le trafic à l'exception de la VOIP qui sera réactivé demain (concerne la redondance uniquement car le trafic est actuellement pris en charge par Globalswitch).

Date: 2017-11-16 15:24:13 UTC
Nous n'avons pas constaté de problème.
Nous remettons donc l'ensemble du trafic sur le routeur à l'exeption de FranceIX.
En effet, le routeur est devenu instable quelques minutes après une mise a jour de leur equipement.
Nous allons investiguer avec le constructeur avant de remttre le traffic sur ce dernier.

Date: 2017-11-16 11:58:33 UTC
Nous avons dé isolé le router. Nous surveillons que le problème ne se reproduise pas, en attente des conclusions de la BU Cisco.

Nous rallumerons les autres PNI / IX d'ici ce soir si nous n'observons pas de problème.

Date: 2017-11-16 11:37:52 UTC
Nous avons remis en services les PNI Bouygues et SFR.

Nous nous attachons à remettre en service les liens P19 <> TH2.

Date: 2017-11-16 11:32:27 UTC
Nous avons isolé les ports des NP incriminés. Nous remettons en production les PNI SFR / Bouygues.

Date: 2017-11-16 11:25:47 UTC
Le SMU a correctement été installé.

Nous avons cependant un lien qui ne remonte pas. Nous investiguons.

Date: 2017-11-16 10:57:53 UTC
Le SMU a été installé. L'ASR est en train de rebooter.

Date: 2017-11-16 10:57:39 UTC
Le routeur est en cours de reload.

Date: 2017-11-16 10:48:51 UTC
La linecard a été remplacée, nous installons le SMU.

Date: 2017-11-16 10:44:48 UTC
Nous sommes en train de remplacer la première carte qui a montré un NP lock up.

Nous allons installer un SMU Reload identifié par la BU Cisco pour corriger des problèmes de ce type.

Nous allons ensuite reloader le router et remettre en service
- les PNI SFR / Bouygues
- le traffic vers notre DC de P19.

Date: 2017-11-16 09:56:30 UTC
L'ensemble des traces viennent d'être envoyé à la BU afin d'analyser plus en détail le problème.

Nous continuons donc d'investiguer dans les 2 directions suivantes:
- Un problème hardware : Le remplacement de la carte sera réalisé dans 30-45minutes
- un problème software : Nous avons remarqué des \"NP lockup\" lors du problème, un case identique a été ouvert récemment chez cisco et un SMU a été réalisé pour un problème similaire. Le TAC essaye de confirmer que le SMU en question pourrait solutionner le problème.

Date: 2017-11-16 09:24:12 UTC
Nous avons également shifté le trafic de BOUYGUES sur LEVEL3 GSW afin d'améliorer la latence vers ce dernier.



Date: 2017-11-16 08:57:36 UTC
Nous sommes en P1 avec Cisco. Nous avons 2 NP qui ont crashés à la suite sur 2 linecards différentes.

Nous avons un RMA en cours sur la première linecard dont le NP a crashé.

Néanmoins à 07:13:06.136 CET, nous avons de nouveau eu un crash d'un NP mais sur l'autre linecard de th2-1-a9

Nous essayons d'analyser avec Cisco pourquoi les 2 NP ont crashés à la suite et tentons d'identifier si il s'agit d'un problème software ou d'un problème hardware.

En parallèle, nous analysons les routages problématiques pour tenter de les corriger.


Date: 2017-11-16 07:44:46 UTC
Nous avons shifter le traffic SFR sur une autre Tier1 pour éviter une saturation.

Le RMA est en cours, toutes nos équipes sont sur le sujet pour remplacer la carte au plus vite dès réception.

Date: 2017-11-16 06:35:48 UTC
Des alertes sont encore visibles sur l'équipement.
Nous préférons l'isoler pour une investigation approfondie avec le constructeur.

Date: 2017-11-16 03:58:56 UTC
Apres une investigation avec le Tac de chez Cisco nous avons trouvé une linecard défectueuse. Nous allons la changer.

Nous avons rétabli le traffic.

Date: 2017-11-16 02:28:45 UTC
Le routeur est isolé BGP et OSPF. On investigue avec Cisco.

Date: 2017-11-16 01:59:42 UTC
Nous l'isolons du reseau et nous ouvrons un ticket chez Cisco

Date: 2017-11-16 01:40:15 UTC
La linecard 0/1 a reloader plusieurs fois. Le routeur semble dans un etat anormal. On isole les ports de la carte et on reload le chassis.


Date: 2017-11-16 01:39:40 UTC
Le routeur ne repond pas, nous allons le redemarrer.
Posted Nov 16, 2017 - 01:22 UTC