OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
bhs-d1/d2-a75
Incident Report for Network & Infrastructure
Resolved
À 17h46 nous avons eu ce logs sur bhs-d1/d2-a75:

2017 Feb 23 17:46:47 CET bhs-d2-a75 SandL3Unicast: %ROUTING-3-HW_RESOURCE_FULL: Hardware resources are insufficient to program all routes

Ainsi qu'a 18h50:
2017 Feb 23 18:50:35 CET bhs-d2-a75 SandL3Unicast: %IP6ROUTING-3-HW_RESOURCE_FULL: Hardware resources are insufficient to program all routes
2017 Feb 23 18:51:05 CET bhs-d2-a75 SandL3Unicast: %IP6ROUTING-3-HW_RESOURCE_FULL: Hardware resources are insufficient to program all routes

Nous avons identifié la table hardware ECMP remplis sur les 2 routeurs:
bhs-d2-a75(s1)#sh hardware capacity utilization percent exceed 70
Forwarding Resources Usage

Table Feature Chip Used Used Free Committed Best Case High
Entries (%) Entries Entries Max Watermark
Entries
------- --------- ------ --------- ------- ---------- ------------ ------------ ---------
ECMP 4095 100% 0 0 4095 4095
ECMP Routing 4095 100% 0 0 4095 4095

1h10~ après le début du diagnostique, le ribd à crashed sur bhs-d1-a75:
2017 Feb 23 18:49:56 CET bhs-d1-a75 Rib: gated_sigdump_handler: QUIT signal received, generating ribd dump

Ce qui a créé un flap de quelque secondes sur 1 des 2 routeurs.

La situation est stable sur d1 et le ECMP table est maintenant à 8% sur d1-a75 mais demeurre à 100% sur d2-a75.

Nous continuons l'investigation.

Update(s):

Date: 2017-02-24 10:12:44 UTC
Apres filtrage des prefixes, les tables ECMP ont retrouvé des valeurs stables. Nous investiguons toujours avec arista.

Date: 2017-02-24 09:55:05 UTC
Nous allons filter quelques prefixes sur l'equipement afin de ne plus avoir les annonces de l'europe en direct.

Date: 2017-02-24 08:14:31 UTC
La demande est toujours en cours d'analyse du côté d'arista.

Date: 2017-02-24 05:17:11 UTC
La situation demeure stable, nous avons ouvert un case chez Arista pour trouver la root cause.

Date: 2017-02-23 20:23:08 UTC
La situation demeure toujours stable au niveau de d1/d2.

Par contre, nous avons eu un soucis avec l'anti-spam du VAC. Il était possible que certaine connexion au port 25 \"timed out\" de 18h50 à 21h15 FR. La situation est rétablit.
Posted Feb 23, 2017 - 18:02 UTC
This incident affected: Infrastructure || BHS (BHS1, BHS2, BHS3, BHS4, BHS5, BHS6, BHS7).