rssLink RSS for all categories
 
icon_red
icon_green
icon_blue
icon_red
icon_orange
icon_green
icon_green
icon_red
icon_green
icon_red
icon_green
icon_green
icon_green
icon_red
icon_green
icon_orange
icon_green
icon_blue
icon_red
icon_red
icon_green
icon_green
icon_green
icon_red
icon_orange
icon_green
icon_green
icon_green
icon_green
icon_red
icon_red
 

FS#28391 — TH2-1-A9

Attached to Project— Reseau Internet et Baies
Incident
Tout le réseau
CLOSED
100%
Nous avons des instabilités sur ce routeur

Nous investiguons

English version: http://status.ovh.net/?do=details&id=15174
Date:  Friday, 17 November 2017, 06:01AM
Reason for closing:  Done
Comment by OVH - Thursday, 16 November 2017, 02:39AM

Le routeur ne repond pas, nous allons le redemarrer.


Comment by OVH - Thursday, 16 November 2017, 02:40AM

La linecard 0/1 a reloader plusieurs fois. Le routeur semble dans un etat anormal. On isole les ports de la carte et on reload le chassis.


Comment by OVH - Thursday, 16 November 2017, 02:59AM

Nous l'isolons du reseau et nous ouvrons un ticket chez Cisco


Comment by OVH - Thursday, 16 November 2017, 03:28AM

Le routeur est isolé BGP et OSPF. On investigue avec Cisco.


Comment by OVH - Thursday, 16 November 2017, 04:58AM

Apres une investigation avec le Tac de chez Cisco nous avons trouvé une linecard défectueuse. Nous allons la changer.

Nous avons rétabli le traffic.


Comment by OVH - Thursday, 16 November 2017, 07:35AM

Des alertes sont encore visibles sur l'équipement.
Nous préférons l'isoler pour une investigation approfondie avec le constructeur.


Comment by OVH - Thursday, 16 November 2017, 08:44AM

Nous avons shifter le traffic SFR sur une autre Tier1 pour éviter une saturation.

Le RMA est en cours, toutes nos équipes sont sur le sujet pour remplacer la carte au plus vite dès réception.


Comment by OVH - Thursday, 16 November 2017, 09:57AM

Nous sommes en P1 avec Cisco. Nous avons 2 NP qui ont crashés à la suite sur 2 linecards différentes.

Nous avons un RMA en cours sur la première linecard dont le NP a crashé.

Néanmoins à 07:13:06.136 CET, nous avons de nouveau eu un crash d'un NP mais sur l'autre linecard de th2-1-a9

Nous essayons d'analyser avec Cisco pourquoi les 2 NP ont crashés à la suite et tentons d'identifier si il s'agit d'un problème software ou d'un problème hardware.

En parallèle, nous analysons les routages problématiques pour tenter de les corriger.


Comment by OVH - Thursday, 16 November 2017, 10:24AM

Nous avons également shifté le trafic de BOUYGUES sur LEVEL3 GSW afin d'améliorer la latence vers ce dernier.


Comment by OVH - Thursday, 16 November 2017, 10:56AM

L'ensemble des traces viennent d'être envoyé à la BU afin d'analyser plus en détail le problème.

Nous continuons donc d'investiguer dans les 2 directions suivantes:
- Un problème hardware : Le remplacement de la carte sera réalisé dans 30-45minutes
- un problème software : Nous avons remarqué des "NP lockup" lors du problème, un case identique a été ouvert récemment chez cisco et un SMU a été réalisé pour un problème similaire. Le TAC essaye de confirmer que le SMU en question pourrait solutionner le problème.


Comment by OVH - Thursday, 16 November 2017, 11:44AM

Nous sommes en train de remplacer la première carte qui a montré un NP lock up.

Nous allons installer un SMU Reload identifié par la BU Cisco pour corriger des problèmes de ce type.

Nous allons ensuite reloader le router et remettre en service
- les PNI SFR / Bouygues
- le traffic vers notre DC de P19.


Comment by OVH - Thursday, 16 November 2017, 11:48AM

La linecard a été remplacée, nous installons le SMU.


Comment by OVH - Thursday, 16 November 2017, 11:57AM

Le routeur est en cours de reload.


Comment by OVH - Thursday, 16 November 2017, 11:57AM

Le SMU a été installé. L'ASR est en train de rebooter.


Comment by OVH - Thursday, 16 November 2017, 12:25PM

Le SMU a correctement été installé.

Nous avons cependant un lien qui ne remonte pas. Nous investiguons.


Comment by OVH - Thursday, 16 November 2017, 12:32PM

Nous avons isolé les ports des NP incriminés. Nous remettons en production les PNI SFR / Bouygues.


Comment by OVH - Thursday, 16 November 2017, 12:37PM

Nous avons remis en services les PNI Bouygues et SFR.

Nous nous attachons à remettre en service les liens P19 <> TH2.


Comment by OVH - Thursday, 16 November 2017, 12:58PM

Nous avons dé isolé le router. Nous surveillons que le problème ne se reproduise pas, en attente des conclusions de la BU Cisco.

Nous rallumerons les autres PNI / IX d'ici ce soir si nous n'observons pas de problème.


Comment by OVH - Thursday, 16 November 2017, 16:24PM

Nous n'avons pas constaté de problème.
Nous remettons donc l'ensemble du trafic sur le routeur à l'exeption de FranceIX.
En effet, le routeur est devenu instable quelques minutes après une mise a jour de leur equipement.
Nous allons investiguer avec le constructeur avant de remttre le traffic sur ce dernier.


Comment by OVH - Thursday, 16 November 2017, 18:27PM

Plan d'action pour cette nuit :
11:30pm (UTC) : Nous isolerons le routeur puis ferons un "online insertion and removal (oir)" sur le slot1 de th2-1-a9 afin de corriger le problème d'accès disque).
-> Si le problème subsiste nous remplacerons de nouveau la carte en question.
Puis nous troubleshooterons un lien A9 <> N7 qui n'est pas remonté suite au remplacement de la carte.

Nous réactiverons tout le trafic à l'exception de la VOIP qui sera réactivé demain (concerne la redondance uniquement car le trafic est actuellement pris en charge par Globalswitch).


Comment by OVH - Friday, 17 November 2017, 00:28AM

Nous commençons l'isolation des sessions BGPs sur th2-1-a9.
Les techniciens sont sur place.


Comment by OVH - Friday, 17 November 2017, 01:15AM

Le routeur a été isolé.
Nous avons réalisé le "online insertion and removal (oir)" mais le problème est toujours présent.


Comment by OVH - Friday, 17 November 2017, 01:18AM

Nous remplaçons de nouveau la carte du slot1 (REF: A9K-8X100GE-L-SE ).


Comment by OVH - Friday, 17 November 2017, 01:20AM

L'erreur n'est pas présente sur cette carte:

RP/0/RSP0/CPU0:th2-1-a9#show media location 0/1/cpu0
Fri Nov 17 01:19:38.756 CET

Media Information for 0/1/CPU0.
Image Current Part
Mountpoint FsType FsType Size State DrvrPid Mirror Flags
================================================================================
/lcdisk0: QNX4 QNX4 23.8G Mounted 0032789
/lcdisk0a: QNX4 QNX4 4.8G Mounted 0032789


Comment by OVH - Friday, 17 November 2017, 01:33AM

Nous avons réactivé l'ensemble des ports entre th2-1-a9 et th2-1-n7.

Nous allons remettre progressivement le trafic.


Comment by OVH - Friday, 17 November 2017, 02:22AM

Nous avons remis l'intégralité du trafic vers les PNIs ainsi que sur les IX à l'exception de FranceIX.
La VOIP et l'ADSL sont encore routés par Globalswitch, nous réactiverons le trafic sur TH2 avec les équipes concernées.


Comment by OVH - Friday, 17 November 2017, 05:04AM

Apres quelques heures, le router semble stable. Nous continuons a monitorer