OVHcloud Bare Metal Cloud Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
RBX-2: salle 26 en defaut
Incident Report for Bare Metal Cloud
Resolved
L'une des salles de RBX-2, la salle 26, n'a pas ressisté aux
tests de groupe du datacentre RBX-2. Les serveurs sont coupés
electriquement.
http://travaux.ovh.com/?do=details&id=3815

Nous sommes en cours de fixation du probleme.


Update(s):

Date: 2010-02-02 17:14:09 UTC
Les problemes sont fixés.

On cherche l'origine du probleme avec le fabriquant.

Date: 2010-02-02 15:03:40 UTC
4 serveurs

Date: 2010-02-02 14:17:40 UTC
17 serveurs

Date: 2010-02-02 13:15:08 UTC
35 serveurs

Date: 2010-02-02 12:47:09 UTC
44 serveurs.

Date: 2010-02-02 12:07:50 UTC
88 serveurs.

il reste les cas problematiques qu'on traite cas par cas et
ont besoins de derackage du serveur et reparation puis rerackage.

Date: 2010-02-02 11:42:15 UTC
116 serveurs encore down.

Date: 2010-02-02 10:54:48 UTC
beaucoup des serveurs checkent les disques. ça prend son temps.
on verifie tous les serveurs un par un s'il y a un check en
cours ou un autre probleme.



Date: 2010-02-02 10:38:30 UTC
encore 242 serveurs down.

Date: 2010-02-02 10:22:49 UTC
Les tests de groupes consiste à basculer la source d'alimentation du
datacentre de \"EDF\" vers les \"groupes\" puis revenir sur \"EDF\". Pendant
ces basculements, l'alimentation du datacentre est assurée par les
onduleurs qui tirent l'energie de ses bateries.

Ce matin,nous avons effectué les tests periodique que nous avons
l'habitude d'effectuer tous les mois sur tous nos datacentres.
http://travaux.ovh.com/?do=details&id=3815
L'objectif est de constater que tout marche bien et qu'en cas d'un
eventuel probleme un jour ou une nuit les clients ne constateront
aucun probleme.

Pendant le test de groupe sur RBX-2, nous avons basculé sur les groupes
sans probleme. L'ensemble des installations fonctionnaient correctement
pendant le basculement d'\"EDF\" vers les \"groupes\" et sur les groupes.

Pendant la phase de basculement \"groupe\" vers \"EDF\" nous avons eu un
probleme sur l'un des dijoncteurs de bateries d'une des onduleurs
qui alimente la salle 26. Du coup les onduleurs n'ont plus été alimentés
en courant à partir de bateries et comme on était en phase de basculement
des groupes vers EDF, les onduleurs n'ont pas été alimentés non plus en
courant EDF (le basculement dure 55 secondes, reglementaire qu'EDF demande
afin de stabiliser le reseau). Et donc une coupure electrique de l'ensemble
des serveurs de la salle 26 a été constatée.

La salle 26 est à nouveau alimentée. Tous les équipes sont dans la salle
26 pour faire revenir tous les serveurs au plus vite.

En parallele, on est en train de regarder et comprendre pourquoi ce
dijoncteur a sauté mais surtout comment faire pourque ça n'arrive plus.
Posted Feb 02, 2010 - 10:06 UTC
This incident affected: Dedicated Servers || Global Infrastructure (RBX).