rssLink RSS for all categories
 
icon_red
icon_red
icon_green
icon_blue
icon_orange
icon_green
icon_green
icon_red
icon_red
icon_blue
icon_green
icon_green
icon_green
icon_green
icon_red
icon_orange
icon_green
icon_green
icon_red
icon_red
icon_red
icon_green
icon_orange
icon_red
icon_orange
icon_green
icon_green
icon_green
icon_green
icon_orange
 

FS#4145 — gsw-4

Attached to Project— Reseau Internet et Baies
Incident
Paris Global Switch
CLOSED
100%
Nous avons un problème de routage sur gsw-4
Date:  Friday, 30 April 2010, 01:13AM
Reason for closing:  Done
Comment by OVH - Thursday, 29 April 2010, 10:34AM

Nous avons des logs bizarres sur certains routeurs concernant les IP
qui sont utilisés pour les routeurs de Global Switch.

Apr 29 10:29:38 20g.vss-3-6k.routers.chtix.eu 22890: Apr 29 09:29:23 GMT: %COMMON_FIB-6-FIB_RECURSION_VIA_SELF: 213.251.190.48/28 is found to resolve via itself during setting up switching info
Apr 29 10:29:38 20g.vss-3-6k.routers.chtix.eu 22891: Apr 29 09:29:23 GMT: %COMMON_FIB-SW1_DFC8-6-FIB_RECURSION_VIA_SELF: 213.251.190.48/28 is found to resolve via itself during setting up switching info
Apr 29 10:29:38 20g.vss-3-6k.routers.chtix.eu 22892: Apr 29 09:29:23 GMT: %COMMON_FIB-SW2_DFC9-6-FIB_RECURSION_VIA_SELF: 213.251.190.48/28 is found to resolve via itself during setting up switching info
Apr 29 10:29:38 20g.vss-3-6k.routers.chtix.eu 22893: Apr 29 09:29:23 GMT: %COMMON_FIB-SW1_DFC9-6-FIB_RECURSION_VIA_SELF: 213.251.190.48/28 is found to resolve via itself during setting up switching info
Apr 29 10:29:38 20g.vss-3-6k.routers.chtix.eu 22894: Apr 29 09:29:23 GMT: %COMMON_FIB-SW2_DFC8-6-FIB_RECURSION_VIA_SELF: 213.251.190.48/28 is found to resolve via itself during setting up switching info
Apr 29 10:29:38 20g.vss-3-6k.routers.chtix.eu 22895: Apr 29 09:29:23 GMT: %COMMON_FIB-SW2_SPSTBY-6-FIB_RECURSION_VIA_SELF: 213.251.190.48/28 is found to resolve via itself during setting up switching info
Apr 29 10:29:38 20g.vss-3-6k.routers.chtix.eu 22896: Apr 29 09:29:23 GMT: %COMMON_FIB-SW1_SP-6-FIB_RECURSION_VIA_SELF: 213.251.190.48/28 is found to resolve via itself during setting up switching info
Apr 29 10:29:38 20g.vss-3-6k.routers.chtix.eu 22897: Apr 29 09:29:23 GMT: %COMMON_FIB-SW1_DFC1-6-FIB_RECURSION_VIA_SELF: 213.251.190.48/28 is found to resolve via itself during setting up switching info

Apparament ce matin les routeurs n'aiment pas l'annonce de 213.251.190.48/28
en OSPF et BGP.

On vient de retirer l'annonce BGP. On garde juste l'OSPF.

Un joli bug encore


Comment by OVH - Thursday, 29 April 2010, 10:41AM

L'origine du probleme vient probablement de travaux d'urgence
qu'on effectue ce matin sur Frankfurt sur Decix.
http://travaux.ovh.com/?do=details&id=4131

Et donc probablement le shutdown/no shutdown de DECIX a provoqué
une petite surcharge sur les VSS au niveau de recalcul de tables
BGP. Ce probleme recurent de surcharge VSS au niveau de BGP sera
resolu prochainement avec la mise en place de 2 ASR 1000 pour les
routes collector du reseau entier. C'est un routeur spécialement
conçu pour de grosses tables BGP et beaucoup d'opération BGP.


Comment by OVH - Thursday, 29 April 2010, 18:33PM

On vient de se prendre une attaque. Elle est maintenant bloquée, sans forcément de rapport avec ce matin.


Comment by OVH - Thursday, 29 April 2010, 22:58PM

On cherche.


Comment by OVH - Thursday, 29 April 2010, 23:17PM

Bon.
Depuis environ 21h on a un probleme sur gsw-4-c1 qui impacte 50% de nos
clients baie à Global Switch. Parfois ça a un impacte sur le gsw-3.
par moment.

On a deplacé le routage de nos serveurs dns secondaire sur un autre
routeur. Toujours down.

On a:
- cherché quelle attaque on se prend et on ne la trouve pas
- cherché une attaque qui viendrait d'un des clients, pareil rien
- on a redemarré l'une des 2 cartes de routage et certains ports
se sont mis en défaut. ça a provoqué un reboot de la 2ème carte
et pareil des ports se sont mis en défaut.
- on a rebooté tout le routeur, 95% des choses sont up

On parie donc sur le scenario suivant: suite à une attaque de ce
matin, quelque chose a été poussé à bout au niveau du hardware et
ça a cassé dans l'apres midi.

On est en train de chercher 2 cartes routages de spare et on va
proceder au changement de cartes l'une après l'autre. Si on a
de la chance, ça va repartir. On pense que la probabilitée que
ça soit la chassis en défaut, n'est pas nulle.

Dans le 1er cas (juste les cartes): tout redemarre vers minuit
Dans le 2ème cas (le chassis): vers 1h30/2h00 du matin.


Comment by OVH - Thursday, 29 April 2010, 23:24PM

Nous avons coupé le port restant "up" de la carte 2. Ca va mieux.
Nous avons coupé tout le routage via la carte 2. Tous les clients
sont up.

Donc c'est probablement la carte #2 dans le routeur qui a probleme
hardware et donc on la change sous 1 heure environ.


Comment by OVH - Friday, 30 April 2010, 00:37AM

On change la carte.


Comment by OVH - Friday, 30 April 2010, 01:13AM

Changé. La conf est syncronisé. Le BGP a été remis en route.

Tout est up à nouveau.

Désolé pour la durée de la panne. Ca prend du temps à trouver
les pannes hardware "no net".