OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
ams-5-a9
Incident Report for Network & Infrastructure
Resolved
Nous avons identifié un problème sur ams-5-a9. A première vue, le process BGP ne traite pas les updates reçus en IPv4.

Cela n'est pas problématique pour le forwarding du trafic. Il n'y a donc aucun impact. Seuls certaines routes peuvent ne pas être apprises.

Nous investiguons avec le constructeur.

Update(s):

Date: 2018-01-17 23:36:23 UTC
Après le disable / enable de nsr, le problème est résolu, et nous n'avons plus de désynchro entre le nombres de routes processées par la sup active et la standby.


RP/0/RSP0/CPU0:ams-5-a9#show bgp process performance-statistics | u e Total
Thu Jan 18 00:18:11.999 CET
Total prefixes scanned: 1330281
RP/0/RSP0/CPU0:ams-5-a9#show bgp process performance-statistics standby | u e Total
Thu Jan 18 00:18:22.171 CET
Total prefixes scanned: 1330395

Date: 2018-01-17 22:42:27 UTC
Nous démarrons la maintenance.

Date: 2018-01-17 16:19:14 UTC
Le problème semble être relatif à NSR sur BGP, certaines routes ne sont pas traitées/synchronisées par la sup standby. Nous allons procéder comme suit, cette nuit, à partir de 23.00 GMT :

- Désactivation / réactivation du process NSR et vérification
- Si le problème n'est pas fixé : désactivation de NSR/BGPn reload de la SUP Standby, puis réactivation de NSR/BGP
- Si le problème n'est pas fixé : désactivation de NSR/BGP, switchover, puis réactivation de NSR/BGP

Date: 2018-01-17 11:53:08 UTC
Nous avons identifié des messages non traités par le process BGP en IPv4 comme en IPv6.

Certains sessions BGP sur AMSIX et sur d'autres PNI ne fonctionnent pas correctement, c'est à dire que le routeur ne traite pas certains updates / withdrawals. Les sessions sont up, mais les NLRI des updates ne sont pas insérés dans les tables BGP. Cela peut avoir un impact si un withdrawal ou un update n'est pas traité correctement pour une route donnée.

Etant donné que le cas n'affecte pas le forwarding, nous avons ouvert un case avec Cisco afin d'identifier si il s'agit d'un défaut software. Si nous ne trouvons pas de raisons explicites, nous envisageons une isolation et un reload power-cycle du routeur dans la nuit.

Le case est ouvert et en cours de traitement par Cisco.
Posted Jan 17, 2018 - 11:14 UTC