OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
vrack RBX
Incident Report for Network & Infrastructure
Resolved
Nous rencontrons actuellement une instabilité sur le vrack de RBX.

http://travaux.ovh.net/?do=details&id=30767

Nous sommes toujours en train d'investiguer.

Update(s):

Date: 2018-03-30 06:38:17 UTC
Nous avons isolé du trafic sur le routeur et nous constatons une amélioration du comportement sur le service.
Les équipes restent mobilisées sur cet incident.

We have isolated traffic on the router and are seeing an improvement in service behavior.
Teams remain mobilized on this incident.

Date: 2018-03-30 06:17:16 UTC
Les RSB ont été basculées et la RSP slave a été physiquement retirée pour éviter tout effet de bord sans améliorations constatées.

The RSBs were swtitched and the RSP slave was physically removed to avoid any side effects without any observed improvements.

Date: 2018-03-30 05:25:00 UTC
Suite a quelques nouveaux soucis constatés, nous basculons les RSP.

Following some new issues, we're switching the RSPs.

Date: 2018-03-30 00:16:37 UTC
Tout est ok maintenant, nous restons en observations quelques heures

Everything is ok now, we will continue to check the status of the router during few hours

Date: 2018-03-29 23:51:38 UTC
La nouvelle carte est insérée et opérationnelle, nous faisons actuellement des vérifications

The new card is up , we are checking the differents status

Date: 2018-03-29 23:06:33 UTC
Nous préparons l'insertion de la nouvelle carte

We are preparing the installation of the new card

Date: 2018-03-29 16:41:58 UTC
Nous avons stabilisé la situation.

Pour éviter les soucis dans le futur en attendant la
migration, nous allons augmenter la capacité cette nuit.
La carte RP est morte et donc nous faisons la RMA. Dans
2H nous allons avoir la carte. Il n'y a pas d’interruption
à prévoir.


We've stabilized the situation.

To prevent further impacts while waiting for the migration, we are augmenting the capacity tonight.
The RSP card is defective and so we are replacing it. In 2 hours we will receive the new card.
There should be no interruption.

Date: 2018-03-29 16:30:54 UTC
Nous allons insérer la seconde carte RSP durant la nuit (1h heure française GMT+1, 30/03/2018) afin d'ajouter de la redondance.

We will insert the new linecard during the night (1am GMT+1 30/03/2018 ) to add some redundancy

Date: 2018-03-29 14:33:29 UTC
Le routeur est UP avec l'ancienne version software.
Nous allons ajouter doubler la capacité de linecard.

The router is UP with the old version software version.
We are going to double linecard capacity.

Date: 2018-03-29 14:27:46 UTC
Nous avons fixé la configuration avec les limites de nombre de l2vpn/bridge.
Les vrack sont revenus. On charge le reste de la configuration. Tout est
en train de revenir.

We have fixed the configuration with the limitations of the L2 vpn/bridge.
Vrack is back up. We are working on the rest of the configuration. We are working to bring everything back.


Date: 2018-03-29 13:47:19 UTC
Boot toujours en cours ; la config se charge

Boot is underway. The configuration is taking place.

Date: 2018-03-29 13:06:56 UTC
On lance le reboot.

We are rebooting.

Date: 2018-03-29 13:03:51 UTC
Les protocoles de routage ne veulent plus redemarrer sur le routeur.
On est obligé de rebooter le routeur dans l’état. On essaie finir
la mise à jour software pour profiter de la nouvelle version soft
afin de doubler la capacité du routeur.

The routing protocols no longer want to restart on the router.
We have to reboot the router in the state. We try to finish the
software update to take advantage of the new software version
to double the router's capacity.

Date: 2018-03-29 12:52:27 UTC
On est en train de regarder quelle decision on prend.
Le routage ne marche plus. mais la nouvelle version
du software n'est pas installée.

We are looking into what decision we will make.
Routing's down but the new version
software is not installed.

Date: 2018-03-29 12:42:45 UTC
Le routeur a coupé le routage (BGP OSPF) alors que la
procédure de reboot n'a pas encore été lancée. Le vrack
marche toujours.

Le routage vrack sur RBX est down.

The router cut the routing (BGP OSPF) while the
reboot procedure has not yet been launched. The vrack
continues to function.

Bulk routing on RBX is down.

Date: 2018-03-29 11:46:03 UTC
Bonjour,
Nous avons fait pas mal de manipulation pour essayer de diminuer le trafic \"BUM\"
qui passe par le routeur en question. Nous avons toujours de saturation entre
les linecards et le RP ce qui fait que l’apprentissage de MAC se fait très mal.

On prépare la mise à jour du routeur dans 30 minutes max. Ceci permettra de
profiter de la dernière version soft et d'ajouter de nouvelles linecards et
donc de doubler la capacité du routeur très rapidement. Cela permettra d'avoir
une situation stable en attendant la fin de la migration.

On lance le reboot entre 14h00 et 14h30. Le redémarrage prendra environ 30
minutes.

Octave

Hello,

We done a lot of manipulations to try to lessen the \"BUM\" traffic
which is passing through the router in question. We still have saturation between
the linecards and the RP which is making MAC learning very difficult.

We are preparing to update of the router in 30 minutes max. This will allow to
take advantage of the latest software version and add new linecards,
therefore doubling the capacity of the router very quickly. This will permit
a stable situation until the end of the migration.

We’ll start the reboot between 14:00 and 14:30. The restart will take about 30
minutes.

Octave



Date: 2018-03-29 11:20:33 UTC
Nouveaux subnets migré vers Gravelines
178.32.233.224/29
188.165.166.192/28
178.32.87.48/28
178.32.246.80/28
178.33.90.80/28
176.31.45.224/28
178.32.238.128/26
178.32.147.160/27
164.132.3.128/28
178.32.209.168/29

Date: 2018-03-29 10:43:04 UTC
188.165.166.240/28
91.121.224.224/28
178.33.92.240/28
178.32.244.160/29
5.39.24.0/25
94.23.100.96/28
137.74.99.208/28
5.196.186.160/28
94.23.107.0/24
176.31.212.128/29


Date: 2018-03-29 10:35:32 UTC
De nouveaux subnets de migrés :
37.59.173.224/27
178.32.183.224/29
46.105.137.192/28
5.135.204.48/28
46.105.236.64/26
37.59.91.208/30
176.31.48.144/28
5.39.112.128/28
91.121.255.48/28
5.135.206.64/28


Date: 2018-03-29 10:29:08 UTC
Bonjour,
Nous avons un souci sur un ancien equipement qui assaure aussi
le fonctionnement du vrack 1.0 et 1.5 surtout au niveau du PCC.
Il s'agit de PCC qui qu'on appelle RBX2A et RBX2B qui sont
basés sur le \"vlan\". Le PCC du RBX2C n'est pas impacté car il
fonctionne sur le \"vxlan\".

Le routeur est dans une très ancienne version software et
nous n'avons pas la possibilité de le mettre à jour sans
couper le service. Normalement, tout aurait dû être déjà migré
vers le vrack 3.0 mais il reste encore quelques bouts sur 1.0
et 1.5 qui sont actuellement impacté.

On ne connait pas encore l'origine du problème. Nous sommes
en train d’évaluer le plan d'action, y compris la mise à jour
software du routeur qui va avoir un impact sur le service
entre 20 à 30 minutes (le temps de boot et de mises à jour
de linecard).

Depuis 2 jours, les équipes essaient de fixer le souci sur
le routeur, tout en avançant plus vite sur les migrations
vers le vrack 3.0. Il s'agit d'un projets de migration très
complexe car il faut patcher le code orchestration de setup
de vrack en même temps que faire les migrations, client par
client. Nous sommes en train de regarder si on ne peut pas
accélérer cette migration, quitte à faire le setup à la main,
sans possibilité de faire les nouveaux setup durant un
moment.

Amicalement
Octave

Hello,

We have an issue on an older piece of equipment that also assures
the operation of vrack 1.0 and 1.5 at the PCC level.
These PCC named RBX2A and RBX2B are
based on \"vlan\". The PCC of RBX2C is not affected because it
works on \"vxlan\".

The router is configured with a very old version of software and
we do not have the ability to update without
cutting service. Normally, everything would have to be already migrated
to vrack 3.0 but there's still some on 1.0
and 1.5 which are currently affected.

We do not yet know the origin of the problem. We are
evaluating a plan of action, including an update
of the router software which will have an impact on service
between 20 to 30 minutes (the time to boot and
update linecard)

For 2 days, teams have been working to fix the problem on
the router, while moving faster on migration
to vRack 3.0. This is a very complex migration
because you have to patch the orchestration setup code
of the vrack at the same time of the migration, customer by
customer. We are looking to see if we can
accelerate the migration, even if it means doing the setup manually,
in this case we’ll not be able to setup any new for the
moment.

Best regards,
Octave





Date: 2018-03-29 10:17:44 UTC
Les subnets migrés vers Graveline jusqu'à présent :

5.135.215.96/27
176.31.194.0/26
5.39.108.144/30
37.59.188.224/27
178.32.247.48/28
5.135.117.0/25
176.31.83.192/27
5.39.119.192/26
5.135.215.96/27
176.31.194.0/26
5.39.108.144/30
37.59.188.224/27
178.32.247.48/28
5.135.117.0/25
176.31.83.192/27
5.39.119.192/26
5.196.120.32/27
5.39.103.64/27
5.196.120.32/27
5.39.103.64/27
91.121.239.96/27
178.33.3.56/29
94.23.112.192/28
178.32.65.64/28
94.23.189.144/28
46.105.242.0/28
188.165.70.0/23
188.165.82.160/27
178.32.239.112/28
37.59.183.64/27


Date: 2018-03-29 10:05:26 UTC
Nous avons commencé la migrations.
Plusieurs ranges ont déjà été basculé.
En parallèle, nous accélerons la mise en place des nouveaux équipements, prévus pour la migration de certains services

Date: 2018-03-29 08:44:59 UTC
Nous nous préparons pour migrer certains clients de Roubaix vers Graveline afin de mieux répartir la charge.

Date: 2018-03-29 06:21:34 UTC
De nouvelles instabilités semblent se manifester sur cette infrastructure.
Nous re-vérifions les fix apporté et continuons le plan d'action mis en place depuis mardi.

Date: 2018-03-27 13:55:43 UTC
La situation est stabilisée depuis 11h45.
Nous gardons l'infrastructure sous surveillance et validons nos actions avec le constructeur.

Date: 2018-03-27 10:01:19 UTC
Certaines actions améliorent la situation. Nous continuons dans ce sens.

Date: 2018-03-27 08:48:01 UTC
Nous continuons le troubleshoot avec le constructeur afin de déterminer la cause du problème.

Date: 2018-03-27 08:01:11 UTC
Nous redémarrons certain process (arp) sur les linecards 0 et 1.

Date: 2018-03-27 07:37:42 UTC
Le troubleshoot continu avec le constructeur.
Nous préparons la migration de certains services sur de nouveaux équipements en parallèle.

Date: 2018-03-27 05:46:51 UTC
Nous détectons de nouveaux problèmes sur le vrack de rbx.
Ceux-ci semblent liés aux tables mac, la linecard n'est plus en cause.
Nous investiguons avec le constructeur.

Date: 2018-03-26 16:21:33 UTC
Nous n'avons plus d'impact actuellement. Nous allons faire le point avec notre fournisseur.

Date: 2018-03-26 16:07:35 UTC
Nous continuons de vider la linecard 7, l'impact se résorbe.

Date: 2018-03-26 15:55:04 UTC
Nous venons de re-câbler un premier switch sur une de nouvelles linecards, nous monitorons.

Date: 2018-03-26 15:40:16 UTC
Nous avons identifié un impact sur le trafic s'écoulant sur l'une des linecards de l'un des routeurs de l'infrastructure vrack. Nous commencons le déplacement de certains liens sur des ports disponibles d'autres linecards afin de confirmer que seule cette linecard est impliquée.
Posted Mar 26, 2018 - 15:19 UTC
This incident affected: Infrastructure || RBX (RBX1, RBX2, RBX3, RBX4, RBX5, RBX6, RBX7, RBX8).