rssLink RSS for all categories
 
icon_blue
icon_green
icon_red
icon_orange
icon_red
icon_green
icon_green
icon_orange
icon_red
icon_orange
icon_green
icon_green
icon_green
icon_green
icon_orange
icon_red
icon_blue
icon_blue
icon_orange
icon_green
icon_green
icon_red
icon_red
icon_blue
icon_orange
icon_green
icon_green
icon_green
icon_green
icon_blue
icon_green
icon_green
 

FS#30779 — vrack RBX

Attached to Project— Reseau Internet et Baies
Incident
Roubaix
CLOSED
100%
Nous rencontrons actuellement une instabilité sur le vrack de RBX.

http://travaux.ovh.net/?do=details&id=30767

Nous sommes toujours en train d'investiguer.
Date:  Sunday, 27 May 2018, 06:02AM
Reason for closing:  Done
Comment by OVH - Monday, 26 March 2018, 17:40PM

Nous avons identifié un impact sur le trafic s'écoulant sur l'une des linecards de l'un des routeurs de l'infrastructure vrack. Nous commencons le déplacement de certains liens sur des ports disponibles d'autres linecards afin de confirmer que seule cette linecard est impliquée.


Comment by OVH - Monday, 26 March 2018, 17:55PM

Nous venons de re-câbler un premier switch sur une de nouvelles linecards, nous monitorons.


Comment by OVH - Monday, 26 March 2018, 18:07PM

Nous continuons de vider la linecard 7, l'impact se résorbe.


Comment by OVH - Monday, 26 March 2018, 18:21PM

Nous n'avons plus d'impact actuellement. Nous allons faire le point avec notre fournisseur.


Comment by OVH - Tuesday, 27 March 2018, 07:46AM

Nous détectons de nouveaux problèmes sur le vrack de rbx.
Ceux-ci semblent liés aux tables mac, la linecard n'est plus en cause.
Nous investiguons avec le constructeur.


Comment by OVH - Tuesday, 27 March 2018, 09:37AM

Le troubleshoot continu avec le constructeur.
Nous préparons la migration de certains services sur de nouveaux équipements en parallèle.


Comment by OVH - Tuesday, 27 March 2018, 10:01AM

Nous redémarrons certain process (arp) sur les linecards 0 et 1.


Comment by OVH - Tuesday, 27 March 2018, 10:48AM

Nous continuons le troubleshoot avec le constructeur afin de déterminer la cause du problème.


Comment by OVH - Tuesday, 27 March 2018, 12:01PM

Certaines actions améliorent la situation. Nous continuons dans ce sens.


Comment by OVH - Tuesday, 27 March 2018, 15:55PM

La situation est stabilisée depuis 11h45.
Nous gardons l'infrastructure sous surveillance et validons nos actions avec le constructeur.


Comment by OVH - Thursday, 29 March 2018, 08:21AM

De nouvelles instabilités semblent se manifester sur cette infrastructure.
Nous re-vérifions les fix apporté et continuons le plan d'action mis en place depuis mardi.


Comment by OVH - Thursday, 29 March 2018, 10:44AM

Nous nous préparons pour migrer certains clients de Roubaix vers Graveline afin de mieux répartir la charge.


Comment by OVH - Thursday, 29 March 2018, 12:05PM

Nous avons commencé la migrations.
Plusieurs ranges ont déjà été basculé.
En parallèle, nous accélerons la mise en place des nouveaux équipements, prévus pour la migration de certains services


Comment by OVH - Thursday, 29 March 2018, 12:17PM

Les subnets migrés vers Graveline jusqu'à présent :

5.135.215.96/27
176.31.194.0/26
5.39.108.144/30
37.59.188.224/27
178.32.247.48/28
5.135.117.0/25
176.31.83.192/27
5.39.119.192/26
5.135.215.96/27
176.31.194.0/26
5.39.108.144/30
37.59.188.224/27
178.32.247.48/28
5.135.117.0/25
176.31.83.192/27
5.39.119.192/26
5.196.120.32/27
5.39.103.64/27
5.196.120.32/27
5.39.103.64/27
91.121.239.96/27
178.33.3.56/29
94.23.112.192/28
178.32.65.64/28
94.23.189.144/28
46.105.242.0/28
188.165.70.0/23
188.165.82.160/27
178.32.239.112/28
37.59.183.64/27


Comment by OVH - Thursday, 29 March 2018, 12:29PM

Bonjour,
Nous avons un souci sur un ancien equipement qui assaure aussi
le fonctionnement du vrack 1.0 et 1.5 surtout au niveau du PCC.
Il s'agit de PCC qui qu'on appelle RBX2A et RBX2B qui sont
basés sur le "vlan". Le PCC du RBX2C n'est pas impacté car il
fonctionne sur le "vxlan".

Le routeur est dans une très ancienne version software et
nous n'avons pas la possibilité de le mettre à jour sans
couper le service. Normalement, tout aurait dû être déjà migré
vers le vrack 3.0 mais il reste encore quelques bouts sur 1.0
et 1.5 qui sont actuellement impacté.

On ne connait pas encore l'origine du problème. Nous sommes
en train d’évaluer le plan d'action, y compris la mise à jour
software du routeur qui va avoir un impact sur le service
entre 20 à 30 minutes (le temps de boot et de mises à jour
de linecard).

Depuis 2 jours, les équipes essaient de fixer le souci sur
le routeur, tout en avançant plus vite sur les migrations
vers le vrack 3.0. Il s'agit d'un projets de migration très
complexe car il faut patcher le code orchestration de setup
de vrack en même temps que faire les migrations, client par
client. Nous sommes en train de regarder si on ne peut pas
accélérer cette migration, quitte à faire le setup à la main,
sans possibilité de faire les nouveaux setup durant un
moment.

Amicalement
Octave

Hello,

We have an issue on an older piece of equipment that also assures
the operation of vrack 1.0 and 1.5 at the PCC level.
These PCC named RBX2A and RBX2B are
based on "vlan". The PCC of RBX2C is not affected because it
works on "vxlan".

The router is configured with a very old version of software and
we do not have the ability to update without
cutting service. Normally, everything would have to be already migrated
to vrack 3.0 but there's still some on 1.0
and 1.5 which are currently affected.

We do not yet know the origin of the problem. We are
evaluating a plan of action, including an update
of the router software which will have an impact on service
between 20 to 30 minutes (the time to boot and
update linecard)

For 2 days, teams have been working to fix the problem on
the router, while moving faster on migration
to vRack 3.0. This is a very complex migration
because you have to patch the orchestration setup code
of the vrack at the same time of the migration, customer by
customer. We are looking to see if we can
accelerate the migration, even if it means doing the setup manually,
in this case we’ll not be able to setup any new for the
moment.

Best regards,
Octave




Comment by OVH - Thursday, 29 March 2018, 12:35PM

De nouveaux subnets de migrés :
37.59.173.224/27
178.32.183.224/29
46.105.137.192/28
5.135.204.48/28
46.105.236.64/26
37.59.91.208/30
176.31.48.144/28
5.39.112.128/28
91.121.255.48/28
5.135.206.64/28


Comment by OVH - Thursday, 29 March 2018, 12:43PM

188.165.166.240/28
91.121.224.224/28
178.33.92.240/28
178.32.244.160/29
5.39.24.0/25
94.23.100.96/28
137.74.99.208/28
5.196.186.160/28
94.23.107.0/24
176.31.212.128/29


Comment by OVH - Thursday, 29 March 2018, 13:20PM

Nouveaux subnets migré vers Gravelines
178.32.233.224/29
188.165.166.192/28
178.32.87.48/28
178.32.246.80/28
178.33.90.80/28
176.31.45.224/28
178.32.238.128/26
178.32.147.160/27
164.132.3.128/28
178.32.209.168/29


Comment by OVH - Thursday, 29 March 2018, 13:46PM

Bonjour,
Nous avons fait pas mal de manipulation pour essayer de diminuer le trafic "BUM"
qui passe par le routeur en question. Nous avons toujours de saturation entre
les linecards et le RP ce qui fait que l’apprentissage de MAC se fait très mal.

On prépare la mise à jour du routeur dans 30 minutes max. Ceci permettra de
profiter de la dernière version soft et d'ajouter de nouvelles linecards et
donc de doubler la capacité du routeur très rapidement. Cela permettra d'avoir
une situation stable en attendant la fin de la migration.

On lance le reboot entre 14h00 et 14h30. Le redémarrage prendra environ 30
minutes.

Octave

Hello,

We done a lot of manipulations to try to lessen the "BUM" traffic
which is passing through the router in question. We still have saturation between
the linecards and the RP which is making MAC learning very difficult.

We are preparing to update of the router in 30 minutes max. This will allow to
take advantage of the latest software version and add new linecards,
therefore doubling the capacity of the router very quickly. This will permit
a stable situation until the end of the migration.

We’ll start the reboot between 14:00 and 14:30. The restart will take about 30
minutes.

Octave


Comment by OVH - Thursday, 29 March 2018, 14:42PM

Le routeur a coupé le routage (BGP OSPF) alors que la
procédure de reboot n'a pas encore été lancée. Le vrack
marche toujours.

Le routage vrack sur RBX est down.

The router cut the routing (BGP OSPF) while the
reboot procedure has not yet been launched. The vrack
continues to function.

Bulk routing on RBX is down.


Comment by OVH - Thursday, 29 March 2018, 14:52PM

On est en train de regarder quelle decision on prend.
Le routage ne marche plus. mais la nouvelle version
du software n'est pas installée.

We are looking into what decision we will make.
Routing's down but the new version
software is not installed.


Comment by OVH - Thursday, 29 March 2018, 15:03PM

Les protocoles de routage ne veulent plus redemarrer sur le routeur.
On est obligé de rebooter le routeur dans l’état. On essaie finir
la mise à jour software pour profiter de la nouvelle version soft
afin de doubler la capacité du routeur.

The routing protocols no longer want to restart on the router.
We have to reboot the router in the state. We try to finish the
software update to take advantage of the new software version
to double the router's capacity.


Comment by OVH - Thursday, 29 March 2018, 15:06PM

On lance le reboot.

We are rebooting.


Comment by OVH - Thursday, 29 March 2018, 15:47PM

Boot toujours en cours ; la config se charge

Boot is underway. The configuration is taking place.


Comment by OVH - Thursday, 29 March 2018, 16:27PM

Nous avons fixé la configuration avec les limites de nombre de l2vpn/bridge.
Les vrack sont revenus. On charge le reste de la configuration. Tout est
en train de revenir.

We have fixed the configuration with the limitations of the L2 vpn/bridge.
Vrack is back up. We are working on the rest of the configuration. We are working to bring everything back.


Comment by OVH - Thursday, 29 March 2018, 16:33PM

Le routeur est UP avec l'ancienne version software.
Nous allons ajouter doubler la capacité de linecard.

The router is UP with the old version software version.
We are going to double linecard capacity.


Comment by OVH - Thursday, 29 March 2018, 18:30PM

Nous allons insérer la seconde carte RSP durant la nuit (1h heure française GMT+1, 30/03/2018) afin d'ajouter de la redondance.

We will insert the new linecard during the night (1am GMT+1 30/03/2018 ) to add some redundancy


Comment by OVH - Thursday, 29 March 2018, 18:41PM

Nous avons stabilisé la situation.

Pour éviter les soucis dans le futur en attendant la
migration, nous allons augmenter la capacité cette nuit.
La carte RP est morte et donc nous faisons la RMA. Dans
2H nous allons avoir la carte. Il n'y a pas d’interruption
à prévoir.


We've stabilized the situation.

To prevent further impacts while waiting for the migration, we are augmenting the capacity tonight.
The RSP card is defective and so we are replacing it. In 2 hours we will receive the new card.
There should be no interruption.


Comment by OVH - Friday, 30 March 2018, 01:06AM

Nous préparons l'insertion de la nouvelle carte

We are preparing the installation of the new card


Comment by OVH - Friday, 30 March 2018, 01:51AM

La nouvelle carte est insérée et opérationnelle, nous faisons actuellement des vérifications

The new card is up , we are checking the differents status


Comment by OVH - Friday, 30 March 2018, 02:16AM

Tout est ok maintenant, nous restons en observations quelques heures

Everything is ok now, we will continue to check the status of the router during few hours


Comment by OVH - Friday, 30 March 2018, 07:25AM

Suite a quelques nouveaux soucis constatés, nous basculons les RSP.

Following some new issues, we're switching the RSPs.


Comment by OVH - Friday, 30 March 2018, 08:17AM

Les RSB ont été basculées et la RSP slave a été physiquement retirée pour éviter tout effet de bord sans améliorations constatées.

The RSBs were swtitched and the RSP slave was physically removed to avoid any side effects without any observed improvements.


Comment by OVH - Friday, 30 March 2018, 08:38AM

Nous avons isolé du trafic sur le routeur et nous constatons une amélioration du comportement sur le service.
Les équipes restent mobilisées sur cet incident.

We have isolated traffic on the router and are seeing an improvement in service behavior.
Teams remain mobilized on this incident.