Nous éprouvons de soucis sur les instances Cloud Public à SBG, nous investiguons
Update(s):
Date: 2016-01-15 03:00:47 UTC une intervention ceph a mal tourné, les qemu ont été coupé, les instances étaient shutoff, des reboot ont été fait pour mettre les instances en-ligne de nouveau
Date: 2016-01-15 00:25:22 UTC Il reste encore 164 PCI DOWN
Date: 2016-01-15 00:05:25 UTC Le task http://travaux.ovh.net/?do=details&id=16164 est à l'origine
du problème. Il s'agit d'agrandissement du cluster CEPH qui sert au
stockage BLOCK pour le POD2. Ce type d'intervention sont effectués
tous les 4 semaines et n'ont pas posé de problèmes jusqu'au là. On
cherche pourquoi cette fois ci, cela a provoqué l’arrêt de Qemu de
tous les PCI qui utilisent le stockage CEPH sur le POD2.
Date: 2016-01-14 23:49:27 UTC Il reste encore 494 PCI DOWN.
Date: 2016-01-14 23:26:49 UTC Nous cherchons l'origine du problème. L'ensemble des PCI de SBG POD2
sont dans l'etat \"stopped\". POD1 et POD3 n'est pas impacté. Il faut
les rebooter. Nous sommes en train de programmer ce reboot si le PCI
est encore DOWN. Et en même temps on cherche l'origine du problème.