Hosted Private Cloud Status

OVHcloud Private Cloud Status

Current status

Legend

Operational
Degraded performance
Partial Outage
Major Outage
Under maintenance

Service vCenter

Incident Report for Hosted Private Cloud

Resolved

Nous avons eu un crash sur un switch supportant le service vCenter.
Nous intervenons.

Update(s):

Date: 2012-05-31 10:39:00 UTC
Tous les vShield Manager sont opérationnels.

Date: 2012-05-29 19:38:30 UTC
Toutes les infrastructures sont opérationnalles.

Il persiste quelques indisponibilités de vShield Manager qui seront fixés pendant la nuit.

Date: 2012-05-29 16:57:33 UTC
La plupart des infrastructures sont maintenant opérationnelles.

Nous continuons la maintenance

Date: 2012-05-29 14:58:07 UTC
Nous avons isolé ce switch avec le FEX 105 qui posait problème.
Juste avec ce FEX le switch ne crashe plus.
Nous essayons de remonter les 4 autres FEX qui étaient initialement branchés dessus.

Date: 2012-05-29 14:36:40 UTC
Nous avons connecté le FEX que d'un côté. Cela a fait crasher le switch concerné.
Le switching continue par l'autre côté.

Les cores dumps récupérés ont été remontés au développeurs chez Cisco.

------------------
2012 May 29 16:33:05 pcc-30a-n5 %SYSMGR-2-SERVICE_CRASHED: Service \"fwm\" (PID 3166) hasn't caught signal 6 (core will be saved).

Broadcast message from root (console) (Tue May 29 16:33:18 2012):

The system is going down for reboot NOW!
------------------

Date: 2012-05-29 14:21:47 UTC
Nous connectons le nouveau FEX.

Date: 2012-05-29 13:28:42 UTC
Les 2 switchs ont recrashé. Nous avons identifié le FEX defaillant. Nous le remplaçons.

Date: 2012-05-29 12:56:27 UTC
Les services vCenters sont up à 95%. Nous restartons les derniers services qui posent problème.

Date: 2012-05-29 12:41:45 UTC
Nous recherchons l'origine du crash avec le constructeur.

Date: 2012-05-29 11:51:16 UTC
Reason: Reset triggered due to HA policy of Reset

Date: 2012-05-29 11:43:21 UTC
Nous vérifions la connectivité de chacun des hosts faisant tourner les services vCenter.

Date: 2012-05-29 11:42:02 UTC
Nous avons encore eu un crash d'un des 2 switch. L'autre a assuré la redondance.

--------------
2012 May 29 13:31:36 pcc-30b-n5 %SYSMGR-2-SERVICE_CRASHED: Service \"fwm\" (PID 3163) hasn't caught signal 6 (core will be saved).

Broadcast message from root (console) (Tue May 29 13:31:50 2012):

The system is going down for reboot NOW!
--------------

Date: 2012-05-29 11:14:45 UTC
Les 2 switchs en dual-home supportant le service vCenter ont crashé l'un après l'autre:

pcc-30a-n5:
-------------
2012 May 29 13:04:12 pcc-30b-n5 %SYSMGR-2-SERVICE_CRASHED: Service \"fwm\" (PID 3277) hasn't caught signal 6 (core will be saved).

Broadcast message from root (console) (Tue May 29 13:04:25 2012):

The system is going down for reboot NOW!
--------------

pcc-30a-n5:
-------------
2012 May 29 13:04:30 pcc-30a-n5 %VPC-2-PEER_KEEP_ALIVE_RECV_FAIL: In domain 30, VPC peer keep-alive receive has failed
2012 May 29 13:05:01 pcc-30a-n5 %SYSMGR-2-SERVICE_CRASHED: Service \"fwm\" (PID 3284) hasn't caught signal 6 (core will be saved).

Broadcast message from root (console) (Tue May 29 13:05:13 2012):

The system is going down for reboot NOW!
-------------

Les switchs sont revenus.
Nous lançons un check-up de l'infrastructure du service vCenter.

Posted May 29, 2012 - 11:10 UTC