FS#4847 — HG, sous windows
Attached to Project— Serveurs dédiés
| Incident | |
| RBX2 | |
| CLOSED | |
![]() |
Nous avons quelques HG, apparament sous windows, qui ne ping plus
depuis 6h36. On continue à chercher l'origine du probleme.
Date: Thursday, 18 November 2010, 10:51AMdepuis 6h36. On continue à chercher l'origine du probleme.
Reason for closing: Done
RSS for all categories

Nous avons tenté differentes reconfiguration du port. ça ne
marche pas. Nous avons recuperé un serveur en changeant le
port du switch. Il semble donc que c'est un bug dans le
systeme du switch. On regarde si on recupere les serveurs en
redemarrant le switch.
Pareil.
On va changer donc les ports pour les 7 serveurs HG sous windows
qui ne veulent plus marcher.
Ca ne marche pas.
On met à jour le switch pour voir si ça va fixer le probleme.
on va redemarrer le switch.
en parallele, on a cherché en interne les problemes similaires
et apparament on avait de problemes sur les linux en 10G. nous
avons dû mettre en place de procedure spécifiques pour faire
marcher les linux avec le choix de cables SFP+ et les cartes
reseaux à cause des incompatibilites. on n'avait pas ce probleme
là sous windows.
on regarde donc en parallele si ce probleme n'est pas le même
que sous linux mais il nous arrive plusieurs mois après la
mise en production de windows et sous un reseau. très bizarre.
le boot du switch a commencé.
sw-n5-14.242# install all kickstart bootflash:n5000-uk9-kickstart.4.2.1.N1.1.bin system bootflash:n5000-uk9.4.2.1.N1.1.bin
Verifying image bootflash:/n5000-uk9-kickstart.4.2.1.N1.1.bin for boot variable "kickstart".
[####################] 100% -- SUCCESS
Verifying image bootflash:/n5000-uk9.4.2.1.N1.1.bin for boot variable "system".
[####################] 100% -- SUCCESS
Verifying image type.
[####################] 100% -- SUCCESS
Extracting "system" version from image bootflash:/n5000-uk9.4.2.1.N1.1.bin.
[####################] 100% -- SUCCESS
Extracting "kickstart" version from image bootflash:/n5000-uk9-kickstart.4.2.1.N1.1.bin.
[####################] 100% -- SUCCESS
Extracting "bios" version from image bootflash:/n5000-uk9.4.2.1.N1.1.bin.
[####################] 100% -- SUCCESS
Notifying services about system upgrade.
[####################] 100% -- SUCCESS
Compatibility check is done:
Module bootable Impact Install-type Reason
------ -------- -------------- ------------ ------
1 yes disruptive reset Reset due to single supervisor
Images will be upgraded according to following table:
Module Image Running-Version New-Version Upg-Required
------ ---------- ---------------------- ---------------------- ------------
1 system 4.1(3)N2(1) 4.2(1)N1(1) yes
1 kickstart 4.1(3)N2(1) 4.2(1)N1(1) yes
1 bios v1.3.0(09/08/09) v1.3.0(09/08/09) no
1 power-seq v1.2 v1.2 no
Switch will be reloaded for disruptive upgrade.
Do you want to continue with the installation (y/n)? [n] y
Install is in progress, please wait.
Setting boot variables.
[####################] 100% -- SUCCESS
Performing configuration copy.
[####################] 100% -- SUCCESS
Module 1: Refreshing compact flash and upgrading bios/loader/bootrom/power-seq.
Warning: please do not remove or power off the module at this time.
Note: Power-seq upgrade needs a power-cycle to take into effect.
On success of power-seq upgrade, SWITCH OFF THE POWER to the system and then, power it up.
[####################] 100% -- SUCCESS
Finishing the upgrade, switch will reboot in 10 seconds.
sw-n5-14.242#
Broadcast message from root (Thu Nov 18 10:26:57 2010):
The system is going down for reboot NOW!
2010 Nov 18 10:26:57 sw-n5-14.242 %KERN-0-SYSTEM_MSG: writing reset reason 31, - kernel
Le switch est à jour. Ca ne marche pas.
Il reste les problemes hardware. On interviens pour changer
le hardware.
les serveurs push bien la MAC sur le reseau, mais ne fonctionnent pas.
nous 53 windows dans les baies 27XXX sur le reseau en question,
il n'y en a que 18 qui ne fonctionnent pas. ils utilisent dhcp
pour booter.
on change les cartes reseaux d'un de serveur pour voir si ça
fixe le probleme.
L'origine du probleme a été trouvé. Cette nuit les équipes qui
s'occupent de mise en place de nouveaux serveurs ont mis en
place les nouveaux serveurs HG. ils ont pris par erreur les IP
de serveurs DHCP. ce qui a mis en panne tous les serveurs HG
qui utilisent DHCP.
manque de communication entre les équipes interne dans le même
datacentre est l'origine de ce probleme. nous allons corriger
ce probleme de communication. nous allons mettre en place DHCP
exterieur au reseau. puis rembourser les clients impactés par
la panne.