OVHcloud Web Hosting Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
attaque 90plan/1000gp/20gp
Incident Report for Web Cloud
Resolved
Depuis 0h00, nous avons une forte attaque sur le 90plan. environ 5000IP
envoient plus de 3'000'000 nouvelles connexions /seconde. Nous avons en
parti reglé le probleme à partir de 2h du matin, mais le systeme s'est
destabilisé à partir de 5h à nouveau. On est en train de regler à
nouveau le probleme.

Update(s):

Date: 2009-09-04 14:05:10 UTC
encor 200 IP.

bon je pense que le probleme d'attaque est fixé.


par contre on a certainement bloquer quelques IP qu'il fallait pas.
On va faire un checkup de tout ça maintenant.


Date: 2009-09-04 13:29:30 UTC
bon on n'a plus d'IP qui nous attaquent. on recheck.

Date: 2009-09-04 13:15:05 UTC
Voilà c'est plus ou moins clean. Il reste encore quelques IP mais ça
fait plus rien du tout. En tout on a environ 6000 IP.

On regarde regulierement pour voir s'il y a de nouvelles IP qui arrivent.
Puis on écrit tranquilement le robot qui va le faire ...

Date: 2009-09-04 13:06:31 UTC
Ca avance désormais correctement. On ajoute par 300 IP dans les access-list.
Le probleme devrait être resolu d'ici quelques 15 minutes encore.

Date: 2009-09-04 12:13:11 UTC
Bon, l'attaque continue. Par contre la carte ne crash plus, elle se
prend l'attaque, fais \"aie\" mais on arrive à reprendre la main dessus.

bon on peut commencer à bosser ...

Date: 2009-09-04 12:04:36 UTC
tout le monde est up ?

si vous avez des problemes oles@ovh.net

Date: 2009-09-04 12:01:32 UTC
On a un comportement des routeurs qui n'est pas normal.
On sent un bug quelque part. On va mettre la derniere
version d'IOS sur les routeurs Cisco.

Nous avons mis à jour les routeurs.
http://travaux.ovh.com/?do=details&id=3361

Date: 2009-09-04 11:02:39 UTC
L'ancienne carte est réellement morte. On a mis un 2ème spare
à la place. Et on va rebasculer le trafic sur cette nouvelle
carte.

Date: 2009-09-04 10:49:27 UTC
la carte a replanté. on a mis une 2ème et on va basculer
d'une à l'autre.

Date: 2009-09-04 09:34:45 UTC
Londres fixé.

Date: 2009-09-04 09:17:25 UTC
Les filtres ont été un peu mieux adaptés. D'après les feedbacks de
ceux qui ont bien voulu m'envoyer leur IP (merci !) ça fonctionne.

Il reste à fixer Londres.

Date: 2009-09-04 08:27:55 UTC
Nous avons essayé de gerer l'attaque autrement et la carte a crashé.
Pour éviter les downtime on laisse le systeme dans l'état. Ca fonctionne.

Si vous avez des problemes, merci de m'envoyer en privé un email sur oles@ovh.net avec
le sujet \"90plan attaque\" et votre IP de connexion. Il se peut que le
systeme a bloqué automatiquement votre IP et il faut la debloquer à la
main.

Date: 2009-09-04 08:24:35 UTC
la carte a redemarré. le service est up.

Date: 2009-09-04 08:09:32 UTC
la carte a planté. redemarrage.

Date: 2009-09-04 07:14:18 UTC
Bon l'attaque est maitrisée mais on cherche une maniere plus jolie
de la gerer. Ce n'est pas intelectuellement pas très propre mais ça
marche. Ca aurait été plus simple si la commande flow mask marchait
correctement ...

En parallele, on fait en boucle la liste de nouvelles IP qui nous
attaquent pour les ajouter dans nos access-list.

Sinon:
Nous avons subit une attaque hier dans la journée sur 60gp et
depuis minuit on la recoit sur 90plan. Les hackers profitent de
la nuit aux USA pour la generer.

L'attaque est une bete SYN flood. La problematique est la quantitée
de nouvelles connexions /seconde (un peu plus de 3'000'000). On la
regle avec policy flow mask mais les commandes ne fonctionnent pas
correctement.

Les communications entre le systeme de repartition de charge (la carte
SLB de Cisco) et le reseau s'arretent de fonctionner au bout de 4-5
secondes puis la carte voit tout en panne. Il faut la redemarrer ce
qui prend 4-5 minutes. Nous avons d'abord pensé à une panne de la SLB
et nous l'avons changé à 1h00 par une spare mais c'était pas ça.
http://travaux.ovh.com/?do=details&id=3359

http://smokeping.ovh.net/ovh-server-statistics/show.cgi?target=Plans.90plan.http-90plan
On continue à bosser pour regler tout ça. Mais on aurait pu mieux
faire (facile de le dire après ...).

Date: 2009-09-04 06:50:21 UTC
Nous nous sommes pris autrement. Le probleme est reglé. Mais
on regarde les effets de bords.
Posted Sep 04, 2009 - 06:28 UTC
This incident affected: Web Hosting || Datacenter GRA (Cluster002, Cluster003, Cluster006, Cluster007, Cluster011, Cluster012, Cluster013, Cluster014, Cluster015, Cluster017, Cluster020, Cluster021, Cluster023, Cluster024, Cluster025, Cluster026, Cluster027, Cluster028, Cluster029, Cluster030, Cluster031).