OVHcloud Web Hosting Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
New Class 4
Scheduled Maintenance Report for Web Cloud
Completed
Nous mettons ce soir en place une nouvelle infrastructure classe 4 pour les interconnections, dans le but de réduire la charge et diviser l'impact
d'un problème éventuel sur les cartes d’interconnexions.

Le matériel est en route.




Update(s):

Date: 2014-06-23 16:54:57 UTC
Bonjour,
Avec 1 semaine de retard sur la date promise pour la fin
de problèmes sur la VoIP, on va clore le task travaux lié
au \"dead packet\". C'est clairement un cas exceptionnel
proche d'un bug 0-day. Probabilité d'avoir ce genre de
problème: 1 fois dans une vie. Nous allons donner un
peu plus d'information sur le type de packet qui casse
les PTG mais dans 1 ou 2 mois, quand les clients de
Cirpack auront mis à jour le software.

Cette semaine, on va valider les indemnités liées à tous
les travaux et pannes qu'on a eu depuis ces derniers
18 mois. Ca ne va pas régénérer de la confiance mais
j'aimerais qu'on arrive à dire: il y avait avant et après
le juin 2014. La confiance reviendra du temps. Beaucoup
de temps. Nous, en tout cas on est là (on l'a prouvé
lors de gestion de ce problème) et on sera là demain
avec la VoIP et on a une liste de nouveaux services
qu'on va déployer dans qq semaines, comme ça.
Oui une liste comme ça longe. On va vous fournir une
roadmap sur 18 mois avec les services qu'on veut
vous proposer. Et on veut y intégrer les services à
valeur ajoutée que nos partenaires font avec notre VoIP,
directement dans notre commande.

On ne voit pas d'autres travaux en vue et on ne voit pas
du tout les zones à risques où notre infrastructure nous
empêcherait à vous délivrer le service. Cet incident nous
a obligé d'avancer tous les travaux qu'on avait programmé
pour fin aout. Bon, voilà, là c'est fait, dans la douleur mais
c'est fait.

Désolé une fois encore pour ce problème et les autres
que nous avons eu.

Cordialement
Octave

Date: 2014-06-21 16:07:24 UTC
Les passerelles sont à jours.

Date: 2014-06-21 14:20:31 UTC
Nous avons bloqué le trafic sur une de nos gateway telco pour la mettre à jour.
La mise à jour s'est correctement déroulé.

Les premiers tests sont ok.

La gateway a été remise en service pour bloquer la seconde
gateway afin de la mettre à jour également.

Date: 2014-06-20 16:26:10 UTC
Le patch Telcobridges est prêt.
Il passe en ce moment les batteries de test de validation de charge et de non-régression.
Nous prévoyons l'installation du patch dès réception cette nuit ou dans la nuit de samedi à dimanche.

Date: 2014-06-20 13:54:58 UTC
Bonjour,

voici l'état des lieux :

on attend un retour cette après-midi de Telcobridges pour la livraison du patch.
Ce doit patch doit corriger les problèmes suivants restant sur appels sortants :
- pas de ringback tone dans certains cas suivant l'ordre des codecs
- transfert d'appel qui coupe l'appel en cours
- mise en attente qui coupe l'appel en cours

On regarde aussi tout les tickets remontées sur des communications
blanches en entrant et en sortant, de suite ou après quelques minutes.
Pour ces cas il faut surtout ouvrir des tickets incidents qu'on puisse recouper
le maximum d'informations et faire les captures.
Merci d'avance pour vos remontées.

Coté carte Cirpack le patch fait le boulot et il n'y a plus du tout de
crash depuis hier matin 6h00, c'est stable.


Date: 2014-06-19 05:43:47 UTC
Bonjour,
Hier, Cirpack a pu créer un packet UDP qui fait planter
très très rapidement une carte PTG. Nous avons testé
ce packet sur la PTG dans notre lab et ça génère bien
le plantage avec exactement le même log d'erreur qu'on
a pendant les plantage.

Un patch a été fait pour protéger le CPU de la PTG quand
un packet comme ça se présente et les détails sur ip/dst
afin de le retrouver dans les dumps.

Le patch a été mis en place ce matin vers 5h30-5h50
Donc l ne reste plus qu'à attendre pour voir c'est fixé
ou il reste encore d'autres packets bizarres à retrouver.

Amicalement
Octave

Date: 2014-06-18 18:12:00 UTC
Cirpack a trouvé le \"dead packet\" qui plante une PTG.
Nous avons refait les tests en interne et nous avons
réussi à faire planter la PTG de notre lab.

Cette nuit nous allons appliquer un patch qui va
donner encore + de logs lors du plantage. La maintenance
sera effectué à 5h30.

Date: 2014-06-18 16:59:40 UTC
Nous allons appliquer demain matin un nouveau patch sur l'ensemble des PTGS, ce patch aura pour but :
* De protéger la PTG contre les paquets dont il est question.
* D'augmenter encore d'un cran le niveau de verbosité à l'échelle du paquet.

Nous installerons le patch demain matin à partir de 05h30 sur l'ensemble des cartes.

Date: 2014-06-18 16:18:13 UTC
Le blocage d'un paquet INVITE trop volumineux par notre VAC est corrigé.
Il n'est plus nécessaire de réduire la liste des codecs.

Date: 2014-06-18 13:21:31 UTC
Le problème de redirection d'appel a été identifié et corrigé.
Nous avons réussi a reproduire ce problème que vers le réseau Bouygues Telecom.
Nous n'avons pas constaté ce problème de renvois d'appel vers les autres opérateurs mobile français.
L'origine du problème est un message supplémentaire dans le message de l'appel sur le réseau télécom, nous avons retiré ce message ce qui corrigé le problème.


Date: 2014-06-16 16:54:31 UTC
18H50: on l'a déactivé sur TB4A/B/C

donc les FAX en transfert inconditionnel d'un
n° OVH vers un n° externe ne fonctionnent plus
en attendant qu'on trouve une solution au
niveau du cirpack.

Date: 2014-06-16 16:46:08 UTC
On commence d'avoir les bonnes pistes.

Le problème arrive pour certaines redirection de
FAX qui essaient de renégocier le T38 de manière
très violente. les cartes PTG se prennent un flood
de renego et crashent.

On vient de désactiver le forcing T38 en output.

Date: 2014-06-16 13:51:45 UTC
Nous avons eu plusieurs crashs consécutifs sur le C4A, seuls les appels entrants sont impactés.
Les appels sortants fonctionnent sans soucis.
Le constructeur dispose de traces complètes sur ces crashs, grâce aux patchs et au câble série mis en place ce week-end.

Date: 2014-06-16 12:02:55 UTC
à 13h08 nous avons eu un crash d'une PTG
sur le C4A (les appels entrants), différent:
crash franc du bladectrl au lieu d'un freeze.


Date: 2014-06-16 08:49:43 UTC
10h45
Il nous reste 2 problèmes à fixer:
- quand on fait un appel sortant et on fait en suite
un transfert sur un autre poste, il n'y a pas de
ringback (pas de sonnerie d'attente) et on a parfois
la communication blanche
- quand on fait un appel sortant , parfois on n'a pas
de ringback

Nous avons réactivé les dumps de tout trafic VoIP et
on peut désormais chercher l'origine du problème.

Date: 2014-06-16 08:34:51 UTC
coupure 15 sec, erreur humaine sur une manipulation d'ACL.

Date: 2014-06-16 08:16:58 UTC
Nous avons eu un problème de son haché dû à
la latence entre RBX et P19. Nous l'avons
fixé.

Il reste le problème de \"manque de ringtone
avec les codecs G729 lors de transfert
d'appel sans confirmation\"

Date: 2014-06-15 17:37:32 UTC
tous les travaux prevus sont terminés et
on attend le 1er pic de Lundi 10H-11H
pour valider le bon fonctionnement de
l'infra class 4.

Date: 2014-06-15 17:32:55 UTC
Les transferts d'appels sortants sont fixés.

Il n'y a plus de problèmes connus en cours.

Date: 2014-06-15 14:59:29 UTC
Les problèmes de coupure d'appel après une mise en attente sont corrigés pour tous les C5.

Date: 2014-06-15 13:30:46 UTC
L'appel vers les numéros courts des lignes sur C5C est corrigé.

Date: 2014-06-14 21:41:03 UTC
3) TB4B est en production avec une interco SFR, dans
1H on va reconfigurer toutes les voix sortantes
via cet equipement et on va vous demander de
bien valider s'il n'y ait plus de problemes sur
les ringback.

done

tout l'output passe par TB4B. si vous avez 2 minutes
pour tester un appel \\340 partir de votre telephone vers
un n\\260 exterieur et confirmer que tout se passe bien
dans tous les cas de figure, \\347a nous aiderait. merci
d'avance



Date: 2014-06-14 21:39:37 UTC
E) On va upgrade C4A vers la nouvelle version du soft
qui permet d'avoir les logs de crashs de PTG. On
va le faire cette nuit. Ceci nous permettra d'avoir
les infos en cas de crash

done

nous avons presque fini la mise a jour des l'infra
C4A avec les chassis et toutes les cartes de voix
en france et en europe.

C4A gere les appels entrants et les numeros courts.
est ce que vous pouvez verifier dans differents cas
de figure que vous pouvez appeler vos numeros de
telephones chez ovh ? merci d'avance. c'est tres
importants.

Date: 2014-06-14 21:39:19 UTC
B) On a la liste des 30 numeros qui reviennent à
chaque de 7 crashs que nous avons eu. Nous
allons contacter les 6 clients et on va leur
bloquer les input. Ils pourront toujours sortir
la voix mais pas se faire appeler.

done

Date: 2014-06-14 21:39:04 UTC
4) sur TB4C on va bouger une interco qui est actuellement
connecté sur le C4B. C4B ne sera plus utilisé.

done

Date: 2014-06-14 16:13:29 UTC
E) On va upgrade C4A vers la nouvelle version du soft
qui permet d'avoir les logs de crashs de PTG. On
va le faire cette nuit. Ceci nous permettra d'avoir
les infos en cas de crash

http://travaux.ovh.net/?do=details&id=10970

preparation pour 21H00

Date: 2014-06-14 15:46:23 UTC
> D) On active les dump IP sur les IP qui utilisent
> ces 30 numeros.

done

Date: 2014-06-14 15:45:10 UTC
> E) On va upgrade C4A vers la nouvelle version du soft
> qui permet d'avoir les logs de crashs de PTG. On
> va le faire cette nuit. Ceci nous permettra d'avoir
> les infos en cas de crash

on prevoit la mise à jour vers 21H00. ca va prendre
entre 7 à 12 minutes, le temps de rebooter tous les
equipements de l'infra C4A


Date: 2014-06-14 10:25:42 UTC
Le nouveau binaire est en place sur les PTG. Celui-ci permet d'avoir un système de statistiques et de remontées plus efficace.

Date: 2014-06-13 13:08:53 UTC
Cirpack nous livre dans moins d'une heure une version d'un binaire à mettre en place sur les PTG afin d'avoir un système de statistiques et remontées plus efficace.



Date: 2014-06-13 12:27:19 UTC
Nous routons chaque c5 un part un vers le c4b afin de détecter si le problème survient spécifiquement depuis une machine.
Si la carte crash le c5 en question peut être mis hors de cause.
Si les trois c5 passent cette étape, c'est que le soucis vient d'autre part.


Date: 2014-06-13 11:34:57 UTC
Voici la liste des actions mises en place, que ce soit côté Cirpack que chez nous :
- nous analysons les traces afin de détecter les appels en cours lors des crash des cartes.
- nous analysons aussi les log de debug d'une carte lors d'un crash précédent.
- nous croiserons aussi les résultats précédents avec les informations des PTG recueillies en fonction des heures des crashs afin de détecter des appels provoquant le dé
faut des cartes. Cette analyse sera réaliser sur les infos jusqu'à j -3.
- nous gardons tout de même en tête la possibilité d'un mauvais calcul des circuits disponibles sur les cartes. Cette action est en cours au pôle R&D de chez Cirpack.

La piste actuelle serait un flux de voix qui serait mal géré.


Date: 2014-06-13 10:55:21 UTC
Le problème sur les numéros surtaxés est fixé sur tous les c5.


Date: 2014-06-13 08:38:16 UTC
Une des cartes du C4A a redémarré, nous avons essuyé des coupures d'appels et des problèmes d'appels entrants, la situation s'est, pour l'instant, stabilisée.

Pour ce qui est du trafic sortant, notre fournisseur d'interconnexion branchée sur le C4B nous rejette certains appels, nous investiguons.

Date: 2014-06-13 07:55:49 UTC
Nous avons détecté un problème de routage d'appels vers certains numéros spéciaux qui cherchent à s'écouler par la route C4B.
Nous avons identifié l'origine du problème et la corrigeons.

Tous les autres appels s'écoulent normalement, les indicateurs sont dans le vert.

Date: 2014-06-13 03:06:41 UTC
La config a été propagé sur tous les c5 avec succès.

Nous avons aussi adapté la conf des machines des autres services afin qu'elles utilisent la nouvelle infra.

L'équipe de jour va prendre le relai d'ici peu.


Date: 2014-06-13 02:23:54 UTC
Les premiers tests ont été concluant.
Nous avons mis en place le système de fallback entre les deux c4.
Un appel qui ne pourra pas aboutir sur un c4 passera automatiquement sur l'autre.

Nous propageons actuellement la configuration sur tous les c5.



Date: 2014-06-13 01:55:49 UTC
L'interco est monté sur la nouvelle infra c4b.
Nous effectuons actuellement les tests du c5c vers l'extérieur en passant par c4b.



Date: 2014-06-13 01:44:45 UTC
Les interconnections sont up.
Nous finalisons la configuration du class 4.

Date: 2014-06-13 00:56:22 UTC
Le problème sur le chassis a été réglé.
Nous commençons le déploiement de notre configuration.



Date: 2014-06-13 00:37:48 UTC
L'installation des nouvelles cartes n'est pas terminée.
Elle prend beaucoup plus de temps que prévu.
Nous attendons encore la fin de la configuration de la part de notre constructeur.



Date: 2014-06-12 21:35:12 UTC
Le chassis a été monté et le ping est effectif entre c4a et c4b.
Le technicien Cirpack monte le controleur. S'en suivera une installation des applications et faisceaux sur la nouvelle machine.

De notre côté, nous avons préparé la configuration du c4b pour router les appels vers l'interco ainsi que la configuration de chargement des DSP.


Date: 2014-06-12 19:06:24 UTC
Le matériel est arrivé.
Nous démarrons l'installation.
Posted Jun 12, 2014 - 16:53 UTC
This scheduled maintenance affected: VoIP || Core Network.