OVHcloud Bare Metal Cloud Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
HG, sous windows
Incident Report for Bare Metal Cloud
Resolved
Nous avons quelques HG, apparament sous windows, qui ne ping plus
depuis 6h36. On continue à chercher l'origine du probleme.

Update(s):

Date: 2010-11-18 09:31:45 UTC
L'origine du probleme a été trouvé. Cette nuit les équipes qui
s'occupent de mise en place de nouveaux serveurs ont mis en
place les nouveaux serveurs HG. ils ont pris par erreur les IP
de serveurs DHCP. ce qui a mis en panne tous les serveurs HG
qui utilisent DHCP.

manque de communication entre les équipes interne dans le même
datacentre est l'origine de ce probleme. nous allons corriger
ce probleme de communication. nous allons mettre en place DHCP
exterieur au reseau. puis rembourser les clients impactés par
la panne.

Date: 2010-11-18 09:17:48 UTC
nous 53 windows dans les baies 27XXX sur le reseau en question,
il n'y en a que 18 qui ne fonctionnent pas. ils utilisent dhcp
pour booter.

on change les cartes reseaux d'un de serveur pour voir si ça
fixe le probleme.

Date: 2010-11-18 09:07:17 UTC
les serveurs push bien la MAC sur le reseau, mais ne fonctionnent pas.

Date: 2010-11-18 08:36:19 UTC
Le switch est à jour. Ca ne marche pas.

Il reste les problemes hardware. On interviens pour changer
le hardware.

Date: 2010-11-18 08:28:27 UTC
sw-n5-14.242# install all kickstart bootflash:n5000-uk9-kickstart.4.2.1.N1.1.bin system bootflash:n5000-uk9.4.2.1.N1.1.bin

Verifying image bootflash:/n5000-uk9-kickstart.4.2.1.N1.1.bin for boot variable \"kickstart\".
[####################] 100% -- SUCCESS

Verifying image bootflash:/n5000-uk9.4.2.1.N1.1.bin for boot variable \"system\".
[####################] 100% -- SUCCESS

Verifying image type.
[####################] 100% -- SUCCESS

Extracting \"system\" version from image bootflash:/n5000-uk9.4.2.1.N1.1.bin.
[####################] 100% -- SUCCESS

Extracting \"kickstart\" version from image bootflash:/n5000-uk9-kickstart.4.2.1.N1.1.bin.
[####################] 100% -- SUCCESS

Extracting \"bios\" version from image bootflash:/n5000-uk9.4.2.1.N1.1.bin.
[####################] 100% -- SUCCESS

Notifying services about system upgrade.
[####################] 100% -- SUCCESS



Compatibility check is done:
Module bootable Impact Install-type Reason
------ -------- -------------- ------------ ------
1 yes disruptive reset Reset due to single supervisor



Images will be upgraded according to following table:
Module Image Running-Version New-Version Upg-Required
------ ---------- ---------------------- ---------------------- ------------
1 system 4.1(3)N2(1) 4.2(1)N1(1) yes
1 kickstart 4.1(3)N2(1) 4.2(1)N1(1) yes
1 bios v1.3.0(09/08/09) v1.3.0(09/08/09) no
1 power-seq v1.2 v1.2 no


Switch will be reloaded for disruptive upgrade.
Do you want to continue with the installation (y/n)? [n] y

Install is in progress, please wait.

Setting boot variables.
[####################] 100% -- SUCCESS

Performing configuration copy.
[####################] 100% -- SUCCESS

Module 1: Refreshing compact flash and upgrading bios/loader/bootrom/power-seq.
Warning: please do not remove or power off the module at this time.
Note: Power-seq upgrade needs a power-cycle to take into effect.
On success of power-seq upgrade, SWITCH OFF THE POWER to the system and then, power it up.
[####################] 100% -- SUCCESS

Finishing the upgrade, switch will reboot in 10 seconds.
sw-n5-14.242#
Broadcast message from root (Thu Nov 18 10:26:57 2010):

The system is going down for reboot NOW!
2010 Nov 18 10:26:57 sw-n5-14.242 %KERN-0-SYSTEM_MSG: writing reset reason 31, - kernel


Date: 2010-11-18 08:27:58 UTC
on va redemarrer le switch.

en parallele, on a cherché en interne les problemes similaires
et apparament on avait de problemes sur les linux en 10G. nous
avons dû mettre en place de procedure spécifiques pour faire
marcher les linux avec le choix de cables SFP+ et les cartes
reseaux à cause des incompatibilites. on n'avait pas ce probleme
là sous windows.

on regarde donc en parallele si ce probleme n'est pas le même
que sous linux mais il nous arrive plusieurs mois après la
mise en production de windows et sous un reseau. très bizarre.

le boot du switch a commencé.

Date: 2010-11-18 08:06:35 UTC
Ca ne marche pas.

On met à jour le switch pour voir si ça va fixer le probleme.

Date: 2010-11-18 07:49:29 UTC
Pareil.

On va changer donc les ports pour les 7 serveurs HG sous windows
qui ne veulent plus marcher.

Date: 2010-11-18 07:42:51 UTC
Nous avons tenté differentes reconfiguration du port. ça ne
marche pas. Nous avons recuperé un serveur en changeant le
port du switch. Il semble donc que c'est un bug dans le
systeme du switch. On regarde si on recupere les serveurs en
redemarrant le switch.
Posted Nov 18, 2010 - 07:15 UTC
This incident affected: Dedicated Servers || Global Infrastructure (RBX).