OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
rbx-2-6k
Incident Report for Network & Infrastructure
Resolved
Nous avons eu un probleme sur la carte 9 du routeur rbx-2-6k
Nous l'avons rebooté.

Nov 27 17:16:58 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 17:17:17 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 17:17:34 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 17:17:52 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 17:18:09 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 17:18:09 GMT: %CONST_DIAG-SP-3-HM_TEST_FAIL: Module 9 TestMacNotification consecutive failure count:5
Nov 27 17:18:27 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 17:18:45 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 17:20:17 GMT: %DIAG-SP-6-RUN_COMPLETE: Module 9: Running Complete Diagnostics...
Nov 27 17:20:50 GMT: %DIAG-SP-6-DIAG_OK: Module 9: Passed Online Diagnostics

Nous avons déjà eu ce genre de probleme il y a quelques jours sur le module 8.

Update(s):

Date: 2007-11-27 21:21:38 UTC
On vient d'ajouter un nouveau lien 10G entre Roubaix et Paris
et là tout va bien à nouveau.

Conclusion: nous sommes arrivés à la limite du materiel au niveau
de filtrage IRC et ça a provoqué un probleme sur les TCAM mais
pas de maniere explicite. Nous avons dû desactivé netflow, policy-map
et les acl puis ajouter un par un des options pour arriver à une
configuration stable. C'est le cas pour l'instant. On laisse le
materiel dans l'état.

Date: 2007-11-27 21:16:54 UTC
On vient de changer les configurations au niveau de routeurs. On vient
de retirer tout ce qui touche les TCAM. Puis on a remis une parti de
la configuration (le filtrage IRC n'est pas remis). Le routeur est
stable pour l'instant.

Nous avons rééquilibré le reseau.

Date: 2007-11-27 20:04:30 UTC
On laisse le routeur sans aucune carte et on cherche ce qu'il se
passe.

Tout le routage fonctionne que sur rbx-1. Ca marche sans probleme.

Date: 2007-11-27 19:58:41 UTC
Le routeur ne fonctionne pas correctement. Nous ne trouvons pas l'origine du probleme.

Le routeur est parti en crabe. Nous avons retiré toutes les cartes du routeurs sauf
la carte sup720 et le routeur est toujours à 100% du CPU ! Planted ...

Date: 2007-11-27 18:31:05 UTC
La carte 9 à nouveau pose un probleme. Elle s'est rebootée toute seule.

Nov 27 19:24:46 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 19:25:03 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 19:25:20 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 19:25:38 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 19:25:55 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 19:25:55 GMT: %CONST_DIAG-SP-3-HM_TEST_FAIL: Module 9 TestMacNotification consecutive failure count:5
Nov 27 19:26:13 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 19:26:30 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 19:26:47 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 19:27:05 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 19:27:22 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 19:27:22 GMT: %CONST_DIAG-SP-3-HM_TEST_FAIL: Module 9 TestMacNotification consecutive failure count:10
Nov 27 19:27:39 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 19:27:39 GMT: %CONST_DIAG-SP-2-HM_MOD_RESET: Resetting Module 9 for software recovery, Reason: Failed TestMacNotification
Nov 27 19:29:01 GMT: %DIAG-SP-6-RUN_COMPLETE: Module 9: Running Complete Diagnostics...
Nov 27 19:29:45 GMT: %DIAG-SP-6-DIAG_OK: Module 9: Passed Online Diagnostics


Date: 2007-11-27 18:27:52 UTC
Nous avons changé la carte sup720 et le test de la carte 2 n'a pas
passé puis a passé. Nous avons remplacé la carte par une carte spare.
Le fonctionnement de routage entre Paris et Roubaix est revenu à
nouveau correct.

Nov 27 18:34:54 GMT: %DIAG-SP-3-MAJOR: Module 2: Online Diagnostics detected a Major Error. Please use 'show diagnostic result ' to see test results.
Nov 27 18:34:54 GMT: %CONST_DIAG-SP-3-BOOTUP_TEST_FAIL: Module 2: TestFibDevices failed
Nov 27 18:34:55 GMT: %OIR-SP-3-LC_FAILURE: Module 2 has Major online diagnostic failure, Card will be powered reset to re-run diagnostic. Please check bootflash diaginfo file for previous detailed diagnostic result.
Nov 27 19:03:23 GMT: %DIAG-SP-6-RUN_COMPLETE: Module 2: Running Complete Diagnostics...
Nov 27 19:03:56 GMT: %DIAG-SP-6-DIAG_OK: Module 2: Passed Online Diagnostics
Nov 27 19:22:17 GMT: %DIAG-SP-3-TEST_FAIL: Module 2: TestSynchedFabChannel{ID=6} has failed. Error code = 0x1
Nov 27 19:23:52 GMT: %DIAG-SP-6-RUN_COMPLETE: Module 2: Running Complete Diagnostics...
Nov 27 19:24:12 GMT: %DIAG-SP-6-DIAG_OK: Module 2: Passed Online Diagnostics


Date: 2007-11-27 17:37:14 UTC
La carte 8 et 9 sont coupées. Tous les routeurs de distribution utilisent
le routeur rbx-1 pour l'interconnexion puis la connexion entre Roubaix
et Paris se passe sur les 2 routeurs.

Date: 2007-11-27 17:34:40 UTC
Nous allons changer la carte sup720 sur le chassis. Sous environ 5 minutes (le temps
de tout preparer).

Date: 2007-11-27 17:32:45 UTC
Nous avons changé les alims pour mettre des alimenations plus puissantes.
Ceci ne regle pas le probleme.

Date: 2007-11-27 17:05:46 UTC
Nov 27 18:00:15 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 18:00:34 GMT: %DIAG-SP-3-TEST_FAIL: Module 9: TestMacNotification{ID=13} has failed. Error code = 0x1

reset de la carte 9

Nov 27 18:01:22 GMT: %DIAG-SP-3-TEST_FAIL: Module 8: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 18:01:40 GMT: %DIAG-SP-3-TEST_FAIL: Module 8: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 18:01:57 GMT: %DIAG-SP-3-TEST_FAIL: Module 8: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 18:02:08 GMT: %DIAG-SP-6-RUN_COMPLETE: Module 9: Running Complete Diagnostics...
Nov 27 18:02:40 GMT: %DIAG-SP-6-DIAG_OK: Module 9: Passed Online Diagnostics
Nov 27 18:02:47 GMT: %DIAG-SP-3-TEST_FAIL: Module 8: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 18:03:04 GMT: %DIAG-SP-3-TEST_FAIL: Module 8: TestMacNotification{ID=13} has failed. Error code = 0x1

reset de la carte 8

Nov 27 18:03:04 GMT: %CONST_DIAG-SP-3-HM_TEST_FAIL: Module 8 TestMacNotification consecutive failure count:5
Nov 27 18:03:22 GMT: %DIAG-SP-3-TEST_FAIL: Module 8: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 18:03:39 GMT: %DIAG-SP-3-TEST_FAIL: Module 8: TestMacNotification{ID=13} has failed. Error code = 0x1
Nov 27 18:03:56 GMT: %DIAG-SP-3-TEST_FAIL: Module 8: TestMacNotification{ID=13} has failed. Error code = 0x1
Posted Nov 27, 2007 - 16:21 UTC