OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
gsw-4
Incident Report for Network & Infrastructure
Resolved
Nous avons un problème de routage sur gsw-4

Update(s):

Date: 2010-04-29 23:13:12 UTC
Changé. La conf est syncronisé. Le BGP a été remis en route.

Tout est up à nouveau.

Désolé pour la durée de la panne. Ca prend du temps à trouver
les pannes hardware \"no net\".

Date: 2010-04-29 22:37:57 UTC
On change la carte.

Date: 2010-04-29 21:24:09 UTC
Nous avons coupé le port restant \"up\" de la carte 2. Ca va mieux.
Nous avons coupé tout le routage via la carte 2. Tous les clients
sont up.

Donc c'est probablement la carte #2 dans le routeur qui a probleme
hardware et donc on la change sous 1 heure environ.

Date: 2010-04-29 21:17:17 UTC
Bon.
Depuis environ 21h on a un probleme sur gsw-4-c1 qui impacte 50% de nos
clients baie à Global Switch. Parfois ça a un impacte sur le gsw-3.
par moment.

On a deplacé le routage de nos serveurs dns secondaire sur un autre
routeur. Toujours down.

On a:
- cherché quelle attaque on se prend et on ne la trouve pas
- cherché une attaque qui viendrait d'un des clients, pareil rien
- on a redemarré l'une des 2 cartes de routage et certains ports
se sont mis en défaut. ça a provoqué un reboot de la 2ème carte
et pareil des ports se sont mis en défaut.
- on a rebooté tout le routeur, 95% des choses sont up

On parie donc sur le scenario suivant: suite à une attaque de ce
matin, quelque chose a été poussé à bout au niveau du hardware et
ça a cassé dans l'apres midi.

On est en train de chercher 2 cartes routages de spare et on va
proceder au changement de cartes l'une après l'autre. Si on a
de la chance, ça va repartir. On pense que la probabilitée que
ça soit la chassis en défaut, n'est pas nulle.

Dans le 1er cas (juste les cartes): tout redemarre vers minuit
Dans le 2ème cas (le chassis): vers 1h30/2h00 du matin.



Date: 2010-04-29 20:58:54 UTC
On cherche.

Date: 2010-04-29 16:33:36 UTC
On vient de se prendre une attaque. Elle est maintenant bloquée, sans forcément de rapport avec ce matin.

Date: 2010-04-29 08:41:59 UTC
L'origine du probleme vient probablement de travaux d'urgence
qu'on effectue ce matin sur Frankfurt sur Decix.
http://travaux.ovh.com/?do=details&id=4131

Et donc probablement le shutdown/no shutdown de DECIX a provoqué
une petite surcharge sur les VSS au niveau de recalcul de tables
BGP. Ce probleme recurent de surcharge VSS au niveau de BGP sera
resolu prochainement avec la mise en place de 2 ASR 1000 pour les
routes collector du reseau entier. C'est un routeur spécialement
conçu pour de grosses tables BGP et beaucoup d'opération BGP.

Date: 2010-04-29 08:34:01 UTC
Nous avons des logs bizarres sur certains routeurs concernant les IP
qui sont utilisés pour les routeurs de Global Switch.

Apr 29 10:29:38 20g.vss-3-6k.routers.chtix.eu 22890: Apr 29 09:29:23 GMT: %COMMON_FIB-6-FIB_RECURSION_VIA_SELF: 213.251.190.48/28 is found to resolve via itself during setting up switching info
Apr 29 10:29:38 20g.vss-3-6k.routers.chtix.eu 22891: Apr 29 09:29:23 GMT: %COMMON_FIB-SW1_DFC8-6-FIB_RECURSION_VIA_SELF: 213.251.190.48/28 is found to resolve via itself during setting up switching info
Apr 29 10:29:38 20g.vss-3-6k.routers.chtix.eu 22892: Apr 29 09:29:23 GMT: %COMMON_FIB-SW2_DFC9-6-FIB_RECURSION_VIA_SELF: 213.251.190.48/28 is found to resolve via itself during setting up switching info
Apr 29 10:29:38 20g.vss-3-6k.routers.chtix.eu 22893: Apr 29 09:29:23 GMT: %COMMON_FIB-SW1_DFC9-6-FIB_RECURSION_VIA_SELF: 213.251.190.48/28 is found to resolve via itself during setting up switching info
Apr 29 10:29:38 20g.vss-3-6k.routers.chtix.eu 22894: Apr 29 09:29:23 GMT: %COMMON_FIB-SW2_DFC8-6-FIB_RECURSION_VIA_SELF: 213.251.190.48/28 is found to resolve via itself during setting up switching info
Apr 29 10:29:38 20g.vss-3-6k.routers.chtix.eu 22895: Apr 29 09:29:23 GMT: %COMMON_FIB-SW2_SPSTBY-6-FIB_RECURSION_VIA_SELF: 213.251.190.48/28 is found to resolve via itself during setting up switching info
Apr 29 10:29:38 20g.vss-3-6k.routers.chtix.eu 22896: Apr 29 09:29:23 GMT: %COMMON_FIB-SW1_SP-6-FIB_RECURSION_VIA_SELF: 213.251.190.48/28 is found to resolve via itself during setting up switching info
Apr 29 10:29:38 20g.vss-3-6k.routers.chtix.eu 22897: Apr 29 09:29:23 GMT: %COMMON_FIB-SW1_DFC1-6-FIB_RECURSION_VIA_SELF: 213.251.190.48/28 is found to resolve via itself during setting up switching info

Apparament ce matin les routeurs n'aiment pas l'annonce de 213.251.190.48/28
en OSPF et BGP.

On vient de retirer l'annonce BGP. On garde juste l'OSPF.

Un joli bug encore
Posted Apr 29, 2010 - 08:31 UTC