Network & Infrastructure Status

OVHcloud Network Status

Current status

Legend

Operational
Degraded performance
Partial Outage
Major Outage
Under maintenance

GRA vRack

Incident Report for Network & Infrastructure

Resolved

Nous subissons des perturbations sur les équipements vRack de Graveline.
Nous investiguons.

Update(s):

Date: 2017-01-11 03:29:58 UTC
Tout semble être revenu à la normale après une coupure de 30 secondes. gra-50b-a70 est de nouveau en prod

Date: 2017-01-11 03:00:15 UTC
Nous commençons l'intervention pour remettre en production gra-50b-a70.

Date: 2017-01-09 17:29:01 UTC
Une intervention est programmée pour remettre en production gra-50b-a70 mercredi 11 janvier à 4h00 (GMT+1)

Date: 2016-12-27 17:24:24 UTC
Nous laissons l'infrastructure tel quel pour aujourd'hui. Nous attendons le retour du constructeur et nous planifirons demain une plage de maintenance pour la remise en service de gra-50b-a70.

Date: 2016-12-27 17:21:12 UTC
gra-50b-a70 ne remonte pas. nous avons un logs lorsque nous tentons de remonté le lien entre gra-g5-a9 <> gra-50b-a70:
016-12-27T17:43:34+01:00 10.11.17.127 gra-50b-a70-vrack 2016 a3 [local4.err] === 2016 Dec 27 17:43:34 CET gra-50b-a70-vrack StrataL3: %STRATA-3-VXLAN_MCAST_RESOURCE_FULL: Hardware resources are insufficient to add vxlan multicast group

Nous avons donc contacter le constructeur. Nous laissons donc le traffic passer par gra-50a-a70.

Il n'y a plus d'impact client depuis 15h30~ (GMT +1) .

Date: 2016-12-27 15:24:32 UTC
Nous allons remettre en production gra-50b-a70-vrack afin d'avoir de nouveau de la résilience sur ce couple.

Date: 2016-12-27 14:27:09 UTC
Nous avons stabilisé l'infrastructure. Nous avons trouver un vlan qui semble avoir des anomalies au niveau des requêtes ARP:
14:13:18.773002 B 62:ad:39:5a:2b:8e ethertype 802.1Q (0x8100), length 70: vlan 2757, p 0, ethertype 802.1Q, vlan 101, p 0, ethertype ARP, Request who-has 192.168.0.6 (ff:ff:ff:ff:ff:ff) tell 192.168.0.6, length 46

Le vlan a été shutdown.

Nous avons des soucis d'effet de bord sur gra-50b-a70-vrack, nous tentons de stabiliser.

Date: 2016-12-27 13:35:18 UTC
Nous avons tenter d'ajuster la limitation copp du ARP sur les concentrateurs sans succès. Le process ARP du routeur gra-g5-a9 est à 100% d'utilisation. Dans l'immédiat, en forcant la MAC en dur dans la table ARP entre 2 serveurs, la situation ce stabilise. Nous continuons d'investiguer pour trouver la root cause.

Date: 2016-12-27 12:40:01 UTC
La situation s'est de nouveau dégradée. Nous continuons à analyser et intervenir sur les mouvements de macs.

Date: 2016-12-27 12:21:15 UTC
Le fonctionnement de l'arp sur les équipements a été impacté lors de l'incident. Les tables arp des équipements ont été réinitialisées afin de stabiliser le fonctionnement.
La situation est actuellement normalisée et reste sous observation.

Date: 2016-12-27 11:59:05 UTC
Nous avons identifié des mouvements importants de macs adresses sur le réseau du DC. Nous intervenons pour réduire l'impact en limitant ces mouvements. Les équipes sont actuellement mobilisées et la situation est en cours de résolution.

Posted Dec 27, 2016 - 11:18 UTC

This incident affected: Infrastructure || GRA (GRA1, GRA2, GRA3).