Bare Metal Cloud Status

OVHcloud Bare Metal Cloud Status

Current status

Legend

Operational
Degraded performance
Partial Outage
Major Outage
Under maintenance

stop and go

Scheduled Maintenance Report for Bare Metal Cloud

Completed

Bonjour,
Depuis quelques jours, nous avons de problèmes
de stabilité sur les VPS 2013 qu'on livre aux
nouveaux clients. Les VPS 2013 livrés il y a
quelques semaines n'ont aucun problème. Le
problème a apparu il y a 10J environ et chaque
jour devient de plus en plus important. On gère
en urgence de bugs liés au vCloud 5.1 et 1000v,
qui sont apparus seulement avec plusieurs milliers
de VPS en fonctionnement et de clients réels
qui font plein d'actions dans tous les sens.

Nous avons donc décidé de suspendre les ventes
de nouveaux VPS le temps de fixer ce problème.
On pense que ceci va nous prendre 7J-8J, c'est
à dire que la semaine prochaine mardi ou mercredi
on va reouvrir la commande et fournir à nouveau
de la qualité. Ça va sans dire que les clients qui
ont subit les pannes ce dernier jours ont le mois
gratuit.

Ainsi durant ces 7-8J, nous allons diviser
l'infrastructure de VPS en plusieurs petits
infrastructures. Ça sera fait demain matin. Ceci
provoquera une coupure dans le service entre
60-180 secondes par VPS. Pour les nouvelles
commandes, nous allons utiliser cette nouvelle
taille maximale d'une infrastructure (les données
de constructeurs sont .. fausses). En suite,
nous allons recoder tous les robots et l'API pour
utiliser directement vSphere au lieu de vCloud.
On va prendre 2-3J pour faire ça à 9 personnes.
Puis on se donnera 2-3J de test du manager/api
et les opérations courantes (réinstalle, snap).
Et donc cela nous amène à mercredi prochain où
on n'entendra plus parler de problèmes de VPS.

Durant ces travaux, il est fort possible que
le manager/api aient quelques problèmes/erreurs
inhabituels. C'est normal: on le recode.
On n'a pas l'habitude de prendre de décision
aussi radicales que fermer la commande mais l'idée
est de mettre toutes les ressources sur ce
problème. Gérer en plus le flux (important)
de nouvelles commandes ne nous permettrait pas
d'aller vite en revoyant toute l'infra comme
nous allons faire.

Désolé pour ces pannes.

Et au boulot. On a 8J max. C'est parti.
Amicalement
Octave

Update(s):

Date: 2013-05-05 21:15:38 UTC
Bonsoir,
Voici quelques news sur l'évolution de VPS 2013.

Nous avons trouvé l'origine de problèmes de
stabilité que nous avons rencontré sur la nouvelle
plateforme VPS 2013. C'était dû à l'incompatibilité
entre les serveurs physiques utilisant l'interface
réseau en 10G et le switch virtuel Cisco 1000v.
Pour une raison qu'on ne connait pas encore,
les VPS s'arrêtaient parfois de pinger, parfois voir souvent
et de maniere aléatoire lors qu'ils tournaient sur
les hosts avec du 10G. Dés qu'on basculait automatiquement
le VPS d'un host à un autre, ça refonctionnait puis
ça s'arrêtait à nouveau au bout d'un certain temps si
le nouveau host était en 10G. Nous avons mis du
temps à faire le rapport entre les hosts 10G et 1000v.
Il a fallu déjà enlever le vCloud pour être sûr que ça
ne venait pas de là. Puis, on a vu plus clair l'infra
d'abord un doute puis confirmation du bug. Depuis
samedi 4H du matin, nous avons migré le
dernière VPS d'un host en 10G et depuis nous
n'avons enregistré aucune instabilité

Nous avons quand même changé le vCloud par
vSphere et on finit de le recoder pour mardi soir.
Ceci nous simplifiera le code car nous avons dû
coder plein de \"workaround\" de bugs de vCloud
chose qui marchent direct en vSphere. Beaucoup
de perte de temps pour vous et nous, notament
pour le windows, le reseau etc Au niveau du code
80% est déjà réécrit et fonctionne. Le reste de l'API
sera fixé en 48H.

On regarde dans la foulé pour rallonger tous les
VPS de 1 mois à nos frais. Nous avons eu trop
de panne depuis 1 mois et il nous est difficile
de justifier une facturation pour un tel mois.

Vu que maintenant on sera en vSphere, ça sera
plus simple de coder par exemple les disques \"high IO\"
pour ceux qui ont besoin de performances garanties
du stockage. Sous vCloud ça faisait déjà 2 semaines
on cherchait comment rendre l'opération \"non automatique\"
alors qu'en vSphere on décide de tout et on laisse aucune
decision à vCloud. Bref, on va enfin coder simplement
et directement.

Les infrastructures VPS 2013 sont protégés par
Arbor. Ceci permet de filtrer quelques attaques
simples et protéger mieux l'infra contre les
instabilités. On attend le reste de l'infrastructure
de mitigation pour ajouter de nouvelles fonctionnalités
en fonction du type d'attaque nous détectons.

Désolé encore pour toutes ces pannes qui sont
inhabituelle pour nous.

Amicalement
Octave

Date: 2013-05-01 11:25:38 UTC
En regardant en profondeur les problèmes de
VPS restant, on s'appercoit qu'il y a un
problème de output de la VM vers 1000v dans
le cas où le VPS est hébergé sur le host XL.

Nous lançons la migration à chaud de toutes
les VM sur les host XL vers les hosts L2+.

si vous avez un problème, n’hésitez pas
nous envoyer un email (oles@ovh.net) ou
un twitter (@olesovhcom) en précisant
le problème et le nom du vps.

Date: 2013-05-01 03:44:58 UTC
si vous avez un problème, n’hésitez pas
nous envoyer un email (oles@ovh.net) ou
un twitter (@olesovhcom) en précisant
le problème et le nom du vps.

Date: 2013-05-01 03:44:06 UTC
toutes les VM sont up.

Date: 2013-04-30 22:53:02 UTC
Tous les VPS Cloud ont été migré. Nous finissons
le travail de redemarrage de certaines VM qui ne
ping pas.

Parmis les VPS qui ne ping pas, il y a les windows
qui ne ping pas naturellement. Ce n'est pas pour
autant qu'ils ne fonctionnent pas.

On s'occupe de VPS restant qui sont down. Dans
leur cas on fait un \"vmotion\" d'un host à un
autre et ça reping .. ça sert un bug.

Aussi il reste quelques VPS qui n'ont pas été
reconfigurés jusqu'au bout ou la reconfiguration
a planté (la mise en place ACL, MAC, VLAN, le
port sur 1000v, IP/MAC sur le routeur etc). On
relance le script avec les VPS qui sont pas
redémarré.

Date: 2013-04-30 14:04:26 UTC
il reste environ 250 VPS à migrer.

Date: 2013-04-30 11:34:13 UTC
Nous sommes arrivés à 60% de l'infrastructure migrée.

Tout se déroule comme prévu, nous continuons la maintenance

Date: 2013-04-30 10:25:08 UTC
Les robots fonctionnent maintenant à pleins régime. Nous avons dépassé les 40% de l'infrastructure migrée.

Tout se déroule correctement, nous continuons la maintenance.

Date: 2013-04-30 07:58:07 UTC
Les migrations vers la nouvelle infrastructure sont toujours en cours. Tout se déroule correctement.

Nous avons migré 10% de l'infrastructure.

Date: 2013-04-30 05:39:27 UTC
Nous démarrons les migrations.

Date: 2013-04-30 01:07:02 UTC
Les robots VPS2013 sont à présent coupés. Toutes nouvelles opérations insérées dans nos bases de données seront traitées ultérieurement. La mise en place de la nouvelle infrastructure est en cours. Les robots pilotant les actions de bases tels que le start, le stop et le reboot sont déjà re-codés pour s'interfacer directement sur vsphere sans passer par la brique vCloud. Nous réalisons en ce moment même quelques tests afin de s'assurer du bon fonctionnement de l'ensemble et de la consistance des bases de donnée. Nous vous tiendrons informé ultérieurement sur la suite des événements via cette tache travaux.

Posted Apr 29, 2013 - 19:04 UTC

This scheduled maintenance affected: Virtual Private Servers || Global Infrastructure (ERI, GRA, SBG, LIM, WAW, BHS, SGP, SYD).