routeurs core RBX / SBG / GRA

OVHcloud Network Status

Current status

Legend

Operational
Degraded performance
Partial Outage
Major Outage
Under maintenance

Scheduled Maintenance Report for Network & Infrastructure

Completed

Nous avons eu un incident au niveau du routage OSPF sur les routeurs core des datacenters de RBX et SBG. Nous investiguons

Update(s):

Date: 2016-12-16 04:51:52 UTC
Il s'agit bien d'un bug lié à l'utilisation du GRE/BGP.
Normalement tous les next-hop sont annoncés en OSPF et
donc le BGP via GRE fonctionne bien. Lors de configuration
de nouveaux routeurs à WAW (pour le PCC) nous avons
configuré un nouveau prefix IP (137.74.2.0/28) qui n'a
pas eu de next-hop dans l'OSPF et le next-hop a été
annoncé en BGP. C'est un cas qui doit juste ne pas
fonctionner mais cela ne doit pas patcher le process
qui maintient la mise à jour de préfixe sur la TCAM
de routeurs. Arista est en train de fixer le bug et
d'ajouter le cas dans les tests unitaires qui vérifient
chaque release qui sort. Nous aurons une nouvelle
image dans quelques heures. Ceci dit, nous avons pris
la décisions d'ajouter un petit routeur sur chaque
routeurs CoreDC pour gérer ces tunnels GRE pour éviter
de toucher d'autres bugs qu'on pourra avoir dans le
futur. Les 2 routeurs CoreDC ne vont que router.
Simple et ça doit marcher tout le temps sans exception.

Désolé pour cette panne.

Date: 2016-12-15 18:48:17 UTC
Nous avons essayé d'utiliser les tunnels GRE sur les routeurs coreDC
et visiblement on a touché un bug software qui a fait crashé les
process RIB sur ces routeurs. On laisse tomber cette idée et on va
déployer 2 routeurs supplémentairement par DC juste pour faire cette
fonction GRE. Comme ça, s'il y a un souci sur le GRE et RIB, nous
n'aurons pas d'impact sur les routeurs en sortie de DC pour tous
les clients qui n'ont pas besoin de Tunnels.

Date: 2016-12-15 18:28:36 UTC
Nous avons coupé les tunnels GRE entre les DCs. Ces tunnels nous
permettent de faire passer le trafic Anti-DDoS entre les DCs
sans les liens dédiés entre les DC. c'est à dire WAW, SGP et SYD.

Nous avons remonté les dumps de crash de RIB à Arista.

Date: 2016-12-15 17:31:51 UTC
D'après les premiers éléments, le problème a été causé par un crash du process RIB sur les routeurs core de Roubaix, Gravelines et Strasbourg. Ces routeurs sont redondés mais le process a crashé quasi simultanément sur les 2 routeurs de chaque DC.

Posted Dec 15, 2016 - 17:07 UTC