Get webhook notifications whenever Network & Infrastructure creates an incident, updates an incident, resolves an incident or changes a component status.
Nous subissons des perturbations sur les équipements vRack de Graveline.
Nous investiguons.
Update(s):
Date: 2017-01-11 03:29:58 UTC Tout semble être revenu à la normale après une coupure de 30 secondes. gra-50b-a70 est de nouveau en prod
Date: 2017-01-11 03:00:15 UTC Nous commençons l'intervention pour remettre en production gra-50b-a70.
Date: 2017-01-09 17:29:01 UTC Une intervention est programmée pour remettre en production gra-50b-a70 mercredi 11 janvier à 4h00 (GMT+1)
Date: 2016-12-27 17:24:24 UTC Nous laissons l'infrastructure tel quel pour aujourd'hui. Nous attendons le retour du constructeur et nous planifirons demain une plage de maintenance pour la remise en service de gra-50b-a70.
Date: 2016-12-27 17:21:12 UTC gra-50b-a70 ne remonte pas. nous avons un logs lorsque nous tentons de remonté le lien entre gra-g5-a9 <> gra-50b-a70:
016-12-27T17:43:34+01:00 10.11.17.127 gra-50b-a70-vrack 2016 a3 [local4.err] === 2016 Dec 27 17:43:34 CET gra-50b-a70-vrack StrataL3: %STRATA-3-VXLAN_MCAST_RESOURCE_FULL: Hardware resources are insufficient to add vxlan multicast group
Nous avons donc contacter le constructeur. Nous laissons donc le traffic passer par gra-50a-a70.
Il n'y a plus d'impact client depuis 15h30~ (GMT +1) .
Date: 2016-12-27 15:24:32 UTC Nous allons remettre en production gra-50b-a70-vrack afin d'avoir de nouveau de la résilience sur ce couple.
Date: 2016-12-27 14:27:09 UTC Nous avons stabilisé l'infrastructure. Nous avons trouver un vlan qui semble avoir des anomalies au niveau des requêtes ARP:
14:13:18.773002 B 62:ad:39:5a:2b:8e ethertype 802.1Q (0x8100), length 70: vlan 2757, p 0, ethertype 802.1Q, vlan 101, p 0, ethertype ARP, Request who-has 192.168.0.6 (ff:ff:ff:ff:ff:ff) tell 192.168.0.6, length 46
Le vlan a été shutdown.
Nous avons des soucis d'effet de bord sur gra-50b-a70-vrack, nous tentons de stabiliser.
Date: 2016-12-27 13:35:18 UTC Nous avons tenter d'ajuster la limitation copp du ARP sur les concentrateurs sans succès. Le process ARP du routeur gra-g5-a9 est à 100% d'utilisation. Dans l'immédiat, en forcant la MAC en dur dans la table ARP entre 2 serveurs, la situation ce stabilise. Nous continuons d'investiguer pour trouver la root cause.
Date: 2016-12-27 12:40:01 UTC La situation s'est de nouveau dégradée. Nous continuons à analyser et intervenir sur les mouvements de macs.
Date: 2016-12-27 12:21:15 UTC Le fonctionnement de l'arp sur les équipements a été impacté lors de l'incident. Les tables arp des équipements ont été réinitialisées afin de stabiliser le fonctionnement.
La situation est actuellement normalisée et reste sous observation.
Date: 2016-12-27 11:59:05 UTC Nous avons identifié des mouvements importants de macs adresses sur le réseau du DC. Nous intervenons pour réduire l'impact en limitant ces mouvements. Les équipes sont actuellement mobilisées et la situation est en cours de résolution.
Posted Dec 27, 2016 - 11:18 UTC
This incident affected: Infrastructure || GRA (GRA1, GRA2, GRA3).