rssLink RSS for all categories
 
icon_red
icon_green
icon_green
icon_red
icon_red
icon_green
icon_green
icon_red
icon_red
icon_red
icon_blue
icon_green
icon_green
icon_orange
icon_green
icon_orange
icon_green
icon_red
icon_red
icon_orange
icon_green
icon_green
icon_green
icon_red
icon_orange
icon_green
icon_green
icon_green
icon_green
icon_green
icon_blue
icon_green
icon_red
 

FS#10325 — filerz55.240

Attached to Project— Web Hosting / CloudDB
Incident
Cluster003 (240plan)
CLOSED
100%
Le serveur ne repond plus.
Nous le redemarrons.
Date:  Thursday, 27 March 2014, 15:14PM
Reason for closing:  Done
Comment by OVH - Wednesday, 26 February 2014, 06:07AM

Le serveur est revenu.


Comment by OVH - Wednesday, 26 February 2014, 06:29AM

Nous avons détecté un défaut sur le serveur.
Nous effectuons une verification materiel.


Comment by OVH - Wednesday, 26 February 2014, 06:42AM

Le serveur est de nouveau fonctionnel.


Comment by OVH - Wednesday, 26 February 2014, 06:56AM

Nous changeons le serveur par un spare.


Comment by OVH - Wednesday, 26 February 2014, 07:06AM

Tout le cluster est impacté par le filer


Comment by OVH - Wednesday, 26 February 2014, 07:39AM

Nous transférons les disques de data dans le nouveau système.


Comment by OVH - Wednesday, 26 February 2014, 07:58AM

Le serveur est de nouveau fonctionnel.


Comment by OVH - Wednesday, 26 February 2014, 08:29AM

Nous gardons une surveillance sur le filerz pour vérifier que le problème ne se reproduit pas.


Comment by OVH - Wednesday, 26 February 2014, 09:02AM

Le système n'est pas stable.
Nous changeons la configuration du pool de données.


Comment by OVH - Wednesday, 26 February 2014, 09:30AM

Nous avons doublé la redondance des disques de logs, et lancé une vérification de tout le pool de données.

Le service est fonctionnel mais reste perturbé par l'opération en cours qui devrait prendre plus de 6 heures.


Comment by OVH - Wednesday, 26 February 2014, 12:01PM

Le service est toujours instable pour ce filer, nous sommes contraint de le désactiver
nous activons un cluster qui sera dédié au filerz55


Comment by OVH - Thursday, 27 February 2014, 07:28AM

Le filer a de nouveau des instabilités, nous intervenons


Comment by OVH - Thursday, 27 February 2014, 14:35PM

Nous avons eu une serie de problemes hardware sur le serveur
qui ont créé une corruption dans le filesystem ZFS. Les données
sont lisibles mais le serveur étant instable (le systeme
plante tous les 30 minutes). On cherche un moyen de rstabiliser
le systeme et commencer à recuperer les données sur un nouveau
filer. Mais il faut trouver un moyen de bloquer toutes les
operations automatiques du ZFS, rendre le pool en read-only sans
que ça ne fasse replanter le tout.

En parallele, nous descendons le dernier backup stocké à Roubaix
L'operation prendrait 24 heures mais pour aller plus vite nous
avons recuperé les disques du backup directement à Roubaix et
on va aller directement avec ces disques à Paris. Ca sera plus
rapide.

Donc, dans 3-4 heures on devrait avoir le nouveau filer et les
données qui viennt du backup UP. Cela rendre vie aux 1209 sites web
impactés par la panne. On espere rafraichir ce backup avec les
données du filer instalbe qu'on pense recuperer dans quelques
dizaines d'heures. Il faut chercher, voir patcher le code ZFS
pour rendre le filer stable au moins en read-only.

Nous sommes désolés pour cette panne. C'est très très rare mais
la panne complete d'un filer peut arriver. Dans ce cas là le
backup est là, nous l'avons, pas soucis. Et nos ingenieurs bosse
sur les dernieres données fraiches qui sont sur le filer.


Comment by OVH - Monday, 03 March 2014, 17:02PM

80% des sites ont été migrés vers un nouveau filer en read write avec les données du backups. Les migrations devraient se terminer cette nuit.

En parrallèle nous travaillons toujours sur la récupération des données du filer d'origine.


Comment by OVH - Wednesday, 05 March 2014, 09:15AM

99% des comptes ont été migrés.
Nous effectuons un contrôle sur les comptes restant.


Comment by OVH - Thursday, 27 March 2014, 15:14PM

L'ensemble des comptes ont été migrés.