Accueil Marmotte Hosting

Vous êtes ici: Accueil > News > Incidents en chaine de la derniere semaine

Revenons sur les incidents des 8 derniers jours. Nous vous devons cette  information.

Un peu d’information générale pour commencer. La grande majorité de nos machines serveurs sont chez OVH (n° 1 Français , n° 1 européen et n°3 mondial) et Hetzner ( n°1 allemand). Le reste étant chez d’autres fournisseurs suivant nos besoins géographiques et spécifiques (US, GB, CH,NL, HK).

Plantons le décor OVH est notre base niveau architecture et services et machines front end niveau client.

Nous sommes en virtualisation (cloud) que nous gérons nous même en X serveurs.

Alors que s'est-il passé ? Le pas de chance ? Non !

Les errances et l'incompétence du support OVH ont amené la durée hors norme et le nombre à répétition des incidents.

Le serveur qui est tombé en panne est notre serveur maitre gérant nos architectures virtualisées et réseaux (nous allons devoir la repenser).

Fin juillet une première panne sans incidence (source OVH) une alimentation est défaillante sur le serveur maitre et ils interviennent en ½ heure en pleine nuit rien à dire sauf qu'il aurait peut-être fallu faire des tests des composants hardware, mais la machine Ping donc c’est bon pour eux. OVH relève quand même que la batterie de la carte raid et défaillante. Nous programmons en accord avec OVH une intervention. OVH annule celle-ci de son propre chef sans nous avertir sous un prétexte plus que douteux. Nous relançons à nouveau une intervention programmée le lendemain. Ce sont les coupures en soirée 2 jours de suite en juillet que vous avez relevé.
Nous n’étions pas très content de la prestation OVH mais passons ça fonctionnait parfaitement au final.

La semaine dernière les services dégringolent comme à Gravelotte, les uns derrières les autres sur ce serveur et le cloud par en vrille, les services s'arretant au fur et à mesure.

Première interruption de service. Nous faisons des tests et vérifications. Nous ne trouvons rien d’anormal et nos journaux d’incidents sont muets concernant des défaillances ou erreurs, nous ne trouvons rien. Nous relançons tous les services, tout semble ok. Nous surveillons…

Quelques heures plus tard, nouvel arrêt. Nous investiguons à nouveau et trouvons dans nos journaux et rapports des défaillances de mémoires Ram. Nous ouvrons un ticket support chez OVH puis les relançons par téléphone et échangeons avec eux différents journaux et résultats de tests. OVH diagnostique une défaillance de barrette RAM et programme en urgence une intervention et nous change toutes les barrettes RAM du serveur.

Le serveur redémarre, parfait  et un nouveau crash 24 heures après. Nous testons le serveur et nous relevons différentes erreurs, de mémoire et de gestion disque dur du fait de la carte controlleur raid. Ouverture de tickets et appels téléphoniques sur le support OVH celui ci ne s’occupe pas des erreurs contrôleur Raid et décide de changer carte mère et mémoire RAM à nouveau car pour eux c’est la défaillance de la carte mère.

Chez marmotte Hosting nous sommes plus circonspect et commençons à penser carte contrôleur raid (moi-même qui suis pourtant pas un technicien de base mais par expérience que c’est la carte raid qui lâche). Changement de carte mère et quelques heures après  à nouveau des incidents  et arrêt.  

Nous relevons encore des problèmes raid mais OVH juge la que c’est pas  la carte contrôleur raid  et met la machine en test pendant des heures. Nous devons relancer x fois (appels et messages),  car aucune nouvelle de leur part. Nous échangeons avec eux et ils décrètent arbitrairement que c’est à nouveau la batterie de la carte raid qui est morte. Nous leurs disons que nous ne sommes pas d’accord et demandons un changement de carte raid. OVH nous répond non! Restant sur son premier diagnostic.
Changement de batterie ? Aucun retour de l’intervention ! Nous devons encore une fois relancer pour aboutir à un incompétent au support qui nous dit de relancer la machine et que c’est bon. Chez Marmotte Hosting nous hurlons notre désaccord dans le vide.

Quelques heures plus tard en pleine nuit, nouvelle défaillance. Nous appelons l’assistance OVH  à 1 h00 du matin (support au canada) et relançons les échanges très durs et ne mâchons pas nos mots (ticket comme téléphone),  le nouvel interlocuteur dit après étude rapide du dossier, dialogue avec nous et ses supérieurs que c’est bien le contrôleur raid qui est défaillant, et cela depuis au moins 24h00 malgré les x interventions, qu’ils (OVH)  ont été mauvais sur ce dossier concernant le support et la gestion incidents.

Programmation en urgence d’un remplacement qui aura malheureusement lieu plus de 2 heures après, nous sommes en pleine nuit en France à Roubaix.

Remise en route machine et services vers 4h30 que nous relançons les uns derrière les autre avec les vérifications d'usage et depuis tous tournent. Nous avons surveillé et testé durant les 72 dernières heures sans le moindre incident ou anomalie.

Donc tout est rentré dans l’ordre mais après combien de temps et d’énergie perdus?

Aujourd’hui qu’en est il ?  

Nous lançons un recours envers OVH pour grave manquement et non respect des clauses de contrat niveau support et intervention (GTI/GTR). Nous ne nous faisons pas d'illusion quand à leur réponse.

Nous sommes nous trompé en choisissant OVH comme partenaire ? Nous nous interrogeons !

Pour vous, nos clients nous avons décidé de vous prolonger de 5 jours la durée de vos contrats hébergement en dédommagement ou prestations. Nous modifions vos dates d’échéance.

Nous vous réitérons toutes nos excuses pour toute la gêne occasionnée et nous vous remercions de votre confiance.

Franck pour l'équipe Marmotte Hosting.

 



Monday, August 29, 2016

<< Retour

Powered by WHMCompleteSolution


Langue: