OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
vss-2-6k
Incident Report for Network & Infrastructure
Resolved
Nous avons de nouveau des problèmes de cpu sur vss-2-6k. Ceci a entrainé du packet loss sur certains réseaux à Roubaix2.

Update(s):

Date: 2010-04-08 12:14:36 UTC
Nous n'avons plus observé de problème depuis vendredi. Le routeur est maintenant stable. Nous continuons néanmoins sur ce sujet avec la mise en place de nouveaux outils de surveillances au niveau ARP.

Date: 2010-04-02 11:06:31 UTC
En décortiquant les requêtes ARP reçue sur le routeur, nous avons identifié plusieurs série suspectes générées par certaines mac de VMs. Après coupure de ces flux, nous avons retrouvé un très bon niveau d'utilisation CPU de l'ARP Input sur vss-2. Nous allons maintenant rechercher d'éventuels flux similaires et tâcher de comprendre comment et pourquoi ils sont générés.

Date: 2010-04-02 00:18:59 UTC
Le nouveau routeur est en place. Nous avons fait quelques tests, notamment y déporter la fonction de proxy arp local, ainsi qu'une partie du trafic entrant, mais sans que cela soit concluant. Ce nouveau routeur va nous permettre de décharger vss-2 d'une partie du traffic entrant. Par contre, cela ne réglera probablement pas le problème de fond au niveau de l'ARP Input sur lesquels nous continuons de travailler avec Cisco.

Date: 2010-04-01 19:47:20 UTC
Nous mettons en production le routeur rbx-fo qui va prendre en charge les IP fail-over.
Cela devrait résoudre certains problemes sur vss-2-6k

Date: 2010-04-01 17:10:42 UTC
Le routeur est revenu dans un état stable. Nous fixons les problèmes d'ip failovers qui auraient pu survenir lors du basculement sur vss-1.

Date: 2010-04-01 17:04:32 UTC
Nous avons de nouveaux les mêmes symptômes sur vss-2. Nous basulons le routage des ips failovers HG2010 vers vss-1.

Date: 2010-03-30 17:00:18 UTC
Le routage sur vss-2 est pour l'instant toujours stable grâce au reroutage du traffic entrant des réseaux HG sur vss-1. Nous avons découvert aujourd'hui un flux anormal vers l'un des serveurs qui, additionné aux problèmes de charge CPU, semble être à l'origine des perturbations sur le routage. Nous suspectons également que ce trafic est entrainé, par effet de bord, les problèmes rencontrés sur les serveurs HGs équipés de carte qlogic (et driver Linux).
Le routeur dédié aux failovers est maintenant presque en place et sera connecté à la backbone en principe demain dans la matinée.
Nous continuons également en // les investigations avec cisco.

Date: 2010-03-30 07:58:05 UTC
Nous travaillons actuellement sur plusieurs axes:

* depuis hier soir le routage vers les réseaux HG2010 se fait via vss-1 (sauf pour les ips FO/blocs/mac virtuelles qui seront migrés dans la matinée). Ceci toujours dans le but de soulager au maximum la charge cpu sur vss-2.
* nous sommes en contact avec Cisco sur un moyen de résoudre ou contourner ce problème d'utilisation CPU du process ARP Input
* nous déployons un nouvel équipement pour lui dédier le routage des ips failovers/blocs ip/macs virtuelles afin d'en décharger le vss-2.

plus d'infos à suivre en cours de journée.

Date: 2010-03-29 14:56:48 UTC
Nous continuons d'avoir des problèmes au niveau du cpu load sur vss-2.
Le problème de base est un niveau trop élevé de temps cpu utilisé par le process ARP Input (maj de la table arp du routeur). Voici notre analyse de ce qui se passe :

Lorsqu'un évènement survient sur la backbone au niveau routage, la charge cpu augmente temporairemant (recalcul de la table de routage). Le process ARP input du routeur dispose alors de moins de ressources et semble entrer dans un cycle lui faisant alors consommer plus que la normale. Ceci entretient ainsi le problème.
Dans certains cas, il peut arriver que le routage sur certains vlans soit impacté. Vous pouvez alors observer des interruptions du routage pouvant aller jusque 10-20s. Ces coupures peuvent éventuellement se répéter tant que le niveau de charge cpu n'est pas revenu à la normale.

Nous travaillons actuellement sur le problème de base, le niveau d'utilisation cpu trop élevé sur vss-2.
Posted Mar 28, 2010 - 14:41 UTC