OVHcloud Bare Metal Cloud Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
Snapshot - Auto backup
Incident Report for Bare Metal Cloud
Resolved
-- FR --

Vous pouvez rencontrer des dysfontionnements avec l'utilisation des fonctionnalités de snapshot et d'automated backup sur les produits Public Cloud et VPS.

Quel est l'impact de cet incident ?

Lorsque vous effectuez un snapshot ou que vous utilisez une option de backup automatique, votre instance peut se retrouver arrêtée et vous êtes bloqué. Impossible pour vous de faire des actions pour rétablir le service.
Nous avons identifié plusieurs root cause qui génèrent ce problème. Voici les différents cas:

1. Nova ne gère pas correctement une exception venant de Libvirt/Qemu lorsque une action échoue en timeout. Ce problème entraine l'échec du snapshot et génère des fichiers snapshot orphelin qui crash le process qemu(bug qemu) au prochain lancement d'un backup. Lorsque le process qemu crash l'instance devient non accessible depuis API nova(impossibilité de reboot) sans l'intervention d'un admin. Un patch est en cours afin d'améliorer la gestion de ce problème et d'éviter de rentrer dans la condition qui fait crasher qemu.

2. Dans certain cas pendant les snapshots Libvirt/Qemu ne parvient pas à répondre dans le temps imparti à nova.
Nous essayons de trouver d'où peut venir les timeouts de libvirt/qemu et de comprendre pourquoi certaine action bloquent, entrainant ces timeout.
Le patch réalise sur le probleme (1) devrait par la même occasion mitiger ce problème

3. Nous etudions l'appliquons d'un patch sur qemu afin d'eviter le crash, lié à la présence de fichier snapshot temporaire, comme expliqué dans (1)

4. L'instance freeze pendant le snapshot. Par défaut nova essaye de communiquer avec l'instance via le Qemu agent avant de faire un snapshot afin de prévenir le système client qu'un snapshot va être effectué. Lorsque nova ne parvient pas à contacter cet agent il force la prise de snapshot sans en informer le système client. Afin déviter ce problème nous vous invitons à installer l'agent Qemu sur vos instances et de faire un reboot de cette dernière pour prendre en compte la modification côté nova.
Pour plus d'information sur le fonctionnement des snapshots : https://www.ovh.com/blog/create-and-use-openstack-snapshots/
Ainsi que la documentation pour l'installation du qemu agent : https://docs.ovh.com/gb/en/vps/using-snapshots-on-a-vps/#best-practice-for-using-snapshots

Ce qui a déjà été fait:
- Mise en place d'un patch pour gérer l'exception entre libvirt/qemu et nova
- Ajout des paramètres en base de données:
- sur les images publiques
- les images VPS migrées depuis l'infra VPS 2014
- les instances démarrés sur des images publiques
- les instances démarrés sur des VPS 2014
- Mettre à jour les images publiques avec le qemu agent (Centos/Preinstall Apps/ArchLinux)

Ce qui nous reste à faire:
- Améliorer le patch nova pour gérer l'exception qui nous remonte entre libvirt/qemu et nova
- Automatiser le déblocage quand votre instance se trouve arrêté
- Mettre à jour libvirt et qemu
- Mettre à jour les images publiques avec le qemu agent (Ubuntu/Debian/Windows)

Nous vous tiendrons informés des différentes avancées sur le sujet en mettant à jour cette tache travaux.

-- EN --

You may encounter an issue with the use of snapshot and automated backup features on Public Cloud and VPS products.

What is the impact of this incident?

When you make a snapshot or use an automated backup option. Your instance may be stopped and you are blocked. It is impossible for you to take any action to restore the service.
We have identified several root causes that generate this problem. Here are the different cases:

1. Nova does not correctly manage an exception coming from Libvirt/Qemu when an action fails in timeout. This problem causes the failure of the snapshot and generates orphan snapshot files which crash the qemu process (qemu bug) at the next launching of a backup. When the qemu process crashes, the instance becomes inaccessible from API nova(reboot impossible) without the intervention of an admin. A patch is in progress in order to improve the management of this problem and to avoid entering the condition that causes qemu to crash.

2. In some cases during snapshots Libvirt/Qemu fails to respond in the time given to nova.
We are trying to find out where libvirt/qemu timeouts can come from and why certain actions block, causing them.
The patch made on problem (1) should mitigate this problem at the same time.

3. We study the application of a patch on qemu to avoid the crash, related to the presence of temporary snapshot files, as explained in (1).

4. The instance freezes during the snapshot. By default nova tries to communicate with the instance via the Qemu agent before taking a snapshot to notify the client system that a snapshot is about to be taken. When nova fails to contact this agent it forces the snapshot to be taken without informing the client system. To avoid this problem we invite you to install the Qemu agent on your instances and reboot it to take into account the modification on the nova side.
For more information on how snapshots work: https://www.ovh.com/blog/create-and-use-openstack-snapshots/
As well as the documentation for the installation of the qemu agent: https://docs.ovh.com/gb/en/vps/using-snapshots-on-a-vps/#best-practice-for-using-snapshots

This has already been done:
- Implementation of a patch to handle the exception between libvirt/qemu and nova
- Added parameters in database:
- on public images
- VPS images migrated from infra VPS 2014
- instances started on public images
- instances started on VPS 2014
- Update public images with the qemu agent (Centos/Preinstall Apps/ArchLinux)

What remains to be done:
- Improve the nova patch to handle the exception that comes up between libvirt/qemu and nova.
- Automate unlocking when your instance is stopped
- Update libvirt and qemu
- Update public images with the qemu agent (Ubuntu/Debian/Windows)

We will keep you informed of the various advances on the subject by updating this task works.

Update(s):

Date: 2020-11-23 07:56:52 UTC
-- FR --

Nous avons mis en place des améliorations sur la fonctionnalité de snapshot ce qui nous permet aujourd'hui d'avoir une version stable.
Si vous rencontrez toujours des problèmes nous vous invitons à contacter le support afin de résoudre le problème.

-- EN --

We have implemented improvements on the snapshot functionality which allows us to have a stable version today.
If you are still experiencing problems we invite you to contact support in order to solve the problem.

Date: 2020-10-09 14:27:55 UTC
-- FR --

Nous avons avancé sur l'incident de prise de snapshot. Un nouveau patch sur Nova a été mis en production et la communication entre Nova et Libvirt/Qemu a été amélioré.
Nous travaillons maintenant sur la mise à jour de Libvrit/Qemu pour améliorer le crash des instances. Le crash survient seulement sur les VPS 2014 migré vers la gamme VPS 2020.
Nous continuons la mise à jour les images sur pour intégrer l'agent Qemu.

-- EN --

We have made progress on the snapshot incident. A new patch on Nova was put in production and the communication between Nova and Libvirt/Qemu was improved.
We work now on the update of Libvrit/Qemu to improve the crash of the instances. The crash occurs only on the VPS 2014 migrated to the VPS 2020 range.
We continue to update the images on to integrate the Qemu agent.
Posted Sep 25, 2020 - 12:37 UTC
This incident affected: Virtual Private Servers || Global Infrastructure (ERI, GRA, SBG, LIM, WAW, BHS, SGP, SYD).