OVHcloud Web Hosting Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
Baie de stockage SQL
Incident Report for Web Cloud
Resolved
Bonjour,
Pour héberger les 3 millions de sites web en hébergement mutualisé
nous utilisons 2 datacentres: le DC historique à Paris (P19) et
le nouveau DC à Gravelines (GRA1). Sur P19, nous utilisons
différentes technologies pour stocker les données pour les sites
web et les bases de données. Dans la majorité de cas nous
utilisons notre technologie NAS ou NAS-HA basée sur le ZFS.

Aussi sur P19, dans certains cas nous utilisons les baies
de stockage propriétaires d'EMC VNX 5400 avec les disques
SSD. Il s'agit d'une solution que nous avons mis en place
en 2012 pour palier aux problèmes de performances de stockage
que nous avons eu en 2012 sur les bases de données. Depuis
nous avons fixé la performance sur nos NAS-HA et sur GRA
nous n'utilisons plus que nos solutions interne.

Le jeudi 29 juin à 18h30, nous avons eu un incident sur
l'une de baies de stockage EMC VNX 5400 que nous utilisons
pour stocker une partie de bases de données de hébergement
mutualisé à P19. Il s'agit d'un ensemble composé de 96
disques SSD configurés en active/active sur plusieurs
baies physiques. L'ensemble ne veut plus redémarrer. Nous
avons contacté le constructeur et nous essayons de trouver
une solution pour récupérer les données hébergés sur cette
baie.

La technologie d'EMC n'est pas à l'origine de l'incident.
Nos datacentres ne sont pas adaptés pour héberger ce type
d'infrastructure. Seules certaines salles sont spécialement
préparées pour ce genre d'hébergement, mais cette baie de
stockage n'y a pas été hébergé ce qui est l'origine du
problème. Nous remercions EMC de nous aider à résoudre cet
incident.

Cette baie de stockage est utilisée pour héberger les bases
de données d'hébergement mutualisé. Aussi toutes les bases de
données sont backupés tous les 24 heures sur d'autres systèmes
de stockage qui sont dans un autre DC à Roubaix: RBX1.

Nous avons 2 actions en cours:

1) nous sommes en contact avec EMC avec qui nous avons
essayé de redémarrer le système. une équipe de RBX a pris
une baie de stockage EMC VNX 5400 que nous avons eu en
spare à Roubaix pour la transporter à P19. La baie est
arrivée à P19 vers 3H du matin et nous essayons de
redémarrer les disques dans cette nouvelle baie de stockage.
Nous avons demandé l'intervention d'EMC sur le site pour
nous aider à la redémarrer au plus vite. Nous ne savons
pas encore combien de temps va prendre le redémarrage de
la baie et si nous arriverons à récupérer les données.
Nous n'avons pas d'ETA. Le technicien d'EMC devrait être
sur le site vers 10H00. Nous aurons plus d'information à
ce moment là.

2) c'est pourquoi nous avons lancé la restauration de bases de
données à partir de backup. Cette restauration a commencé
vers minuit du matin. Ce matin à 9h, environ 15% de bases de
données ont été remises en route en mode \"lecture seule\"
c'est à dire que les sites web peuvent lire les données
dans les bases de données mais ne peuvent pas encore les
modifier. Nous continuons la restauration qui va prendre
jusqu'à environ ce soir 20h. L'ensemble de process est
désormais automatisé et nous avons assez de stockage pour
deployer toutes ces bases de données sur P19.

Next step. Il y a 2 choix. Le plan A et le plan B.

A) si nous arrivons à récupérer les données de la baie
nous allons immédiatement redémarrer toutes les bases
de données. aucune perte de données.

b) si nous n'arrivons pas à redémarre la baie. Dans
ce cas là nous allons activer le mode \"lecture et
écriture\" sur les bases de données qui ont été
restaurées à partir du backup qui aura un retard de
minimum 1H et maximum 22H sur la version de bases
de données à l'heure de la panne.

Pour suivre les tasks de travaux sur la restauration
de bases de données:
http://travaux.ovh.net/?do=details&id=25697

113 VM avec les bases de données ont été impactées.

Nous sommes sincèrement désolés pour cette panne. La
dernière panne de cette ampleur date de 2006 et à
l’époque nous avons remis en question toutes les
technologies de stockage que nous utilisons chez Ovh.
Cette panne est une leçon de plus et nous allons vous
communiquer les changements qui vont s’opérer dés la
fin de cet incident pour éviter de revivre la prochaine
panne de cette ampleur dans 10 ans encore.

Amicalement
Octave



Update(s):

Date: 2017-07-19 09:01:24 UTC
Cher client,



Le jeudi 29 Juin à partir de 18h48, certains d’entre vous ont subi un dysfonctionnement de leur hébergement web dont vous retrouverez l’ensemble des détails sur notre blog.



Nous tenions à renouveler nos excuses pour ce désagrément.



Etant donné le caractère exceptionnel de la situation, nous offrons à tous nos clients impactés 2 mois d’hébergement gratuits.

Pour bénéficier de ce geste commercial, nous invitons les clients concernés à se rendre dans leur espace client en cliquant sur le lien suivant :



Activer l’extension de 2 mois : https://www.ovh.com/manager/web/#/billing/sla



En vous remerciant de votre confiance,

L’équipe Webhosting d’OVH

Date: 2017-06-30 21:51:13 UTC
L'ensemble des bases de données sont désormais opérationnelles.

Nous restons mobilisés et vous serez tenu informé de l'état d'avancement de la restauration des données de la baie de stockage.



Date: 2017-06-30 21:17:52 UTC

98% des bases de données sont restaurées.
Vous pouvez en consulter la liste via le lien suivant: http://travaux.ovh.net/?do=details&id=25697

Nos équipes ont également avancer significativement en collaboration avec notre storage provider.
Afin de garantir l'intégrité des données, nous procédons à une analyse approfondie de l'état de la baie de stockage avant de rendre ces dernières accessibles.


Date: 2017-06-30 19:26:04 UTC
95% des bases de données sont désormais restaurées.
Vous pouvez en consulter la liste via le lien suivant: http://travaux.ovh.net/?do=details&id=25697


Date: 2017-06-30 18:28:41 UTC
90% des bases de données sont désormais restaurées.
Les équipes restent mobilisées, nous vous tenons informé de l'état d'avancement des dernières restaurations au plus vite.

Date: 2017-06-30 16:55:37 UTC
Les restaurations des données depuis la baie EMC est en cours d'investigation avec la Recovery Team EMC.
La restauration des sauvegardes de bases de données avancent, nous continuons de vous tenir informé jusqu'au terme de l'intervention.

Date: 2017-06-30 15:01:29 UTC
Nous n'avons pas d'avancée significative sur la restauration des données sur la baie EMC.

Nous sommes par contre à 80% de restauration des sauvegardes des bases.

Date: 2017-06-30 13:02:54 UTC
Nous venons d'ajouter un message dans l'espace client aux clients concernés par cette panne.

Si vous êtes impactés par cette panne, vous aurez le message suivant dans votre espace client :

\"Nous vous informons que nous rencontrons actuellement un incident sur une partie de nos hébergements mutualisés situés à Paris (P19). Nos équipes techniques sont actuellement en cours d'intervention, les services sont rétablis au fur et à mesure, vous pouvez suivre l'évolution de la tâche sur http://travaux.ovh.net/?do=details&id=25709. Nous vous prions de nous excuser pour ces désagréments. Pour toutes questions sur nos produits et services, vous pouvez nous contacter au 1007.\"

Date: 2017-06-30 12:42:38 UTC
Nous avons donc pris la décision d'activer les bases restaurées correspondant au à la
sauvegarde du 29 Juin 3:00 CEST (UTC+2) en lecture/écriture.

Cette opération sera lancée au plus tard à partir de 15:00 CEST (UTC+2) ce jour.



Date: 2017-06-30 12:38:33 UTC
Nous allons passer les bases déjà restaurées de Read-Only vers du Read-Write pour réouvrir le service.
Cette opération est en cours, elle demandera un nouvelle arrêt de services de quelques minutes.

Nous continuons à avancer avec EMC pour la remise en route des têtes de baie.
Nous pourions alors fournir un dump des bases pour avoir les dernières données avant crash et vous les fournir.

Nous avons optimisé et prefectionné notre système de restauration, nous restaurons donc plus rapidement,
l'ensemble des bases seront disponibles dans quelques heures.



Date: 2017-06-30 11:58:03 UTC
L'équipe reste mobilisée sur la remise en service de la baie avec EMC.

Les travaux de restore continuent. Vous pouvez suivre l'avancement http://travaux.ovh.net/?do=details&id=25697



Date: 2017-06-30 11:38:34 UTC
Nous échangeons avec les équipes en escalade chez EMC afin de continuer à avancer sur la remise en route d'une des têtes de la baie.

Les opérations de restauration continuent à avancer, nous sommes maintenant à 40% des bases restaurées et disponibles en lecture seul.

Date: 2017-06-30 11:09:29 UTC
Les interventions sur la baie sont toujours en cours avec le fournisseur.

Nous sommes à 33% des restaurations des bases.

Date: 2017-06-30 10:49:51 UTC
Nous prenons toutes nos précautions avec EMC sur la remise en service de la tête afin de réduire le risque. Les opérations sont toujours en cours.

Pendant ce temps, la restauration des bases continue et nous sommes actuellement à 30% d'avancement.

Date: 2017-06-30 10:28:05 UTC
Nous continuer à avancer sur les deux plans d'actions et l'ensemble de nos équipes restent mobilisées pour rendre le service au plus tôt.

1) Nous travaillons actuellement avec EMC qui est sur site. Nous maintenons nos efforts pour récupérer les données à la date du début de l'incident.
Nous restons confiant sur le bon résultat des opérations qui sont menées et sur la capacité à récupérer ces données. Nous devrions être maintenant rapidement fixé.
Une des têtes a récupérée la configuration et une procédure reste à dérouler afin de finaliser la mise en service de cette tête.

2) La restauration des bases de données continue (voir http://travaux.ovh.net/?do=details&id=25697) et un ensemble de bases sont déjà accessibles en lecture seul afin de rendre un service minimal.

Nous continuons à vous tenir informé de l'avancement des opérations.
Posted Jun 30, 2017 - 07:09 UTC
This incident affected: Web Hosting || Datacenter GRA (Cluster002, Cluster003, Cluster006, Cluster007, Cluster011, Cluster012, Cluster013, Cluster014, Cluster015, Cluster017, Cluster020, Cluster021, Cluster023, Cluster024, Cluster025, Cluster026, Cluster027, Cluster028, Cluster029, Cluster030, Cluster031).