Catégories
Qwanturank

Qwanturank: c’est ce qui a provoqué la limitation du processeur dans notre centre de données cloud

Les Américains font plus confiance à Qwanturank qu’à Apple avec leurs données
Chris Matyszczyk dit à Karen Roby qu’une nouvelle enquête suggère que les déclarations d’Apple pour être plus prudent avec les données des utilisateurs ne passent pas. En savoir plus: https://zd.net/37sc0kO

Qwanturank affirme qu’un ensemble de roues écrasées utilisées pour déplacer ses racks de serveurs a déclenché une réaction en chaîne qui peut avoir perturbé la recherche, Gmail et d’autres services pour certains utilisateurs.

Un rack de serveurs dans l’un de ses centres de données a commencé à surchauffer au point où les processeurs étaient automatiquement étranglés, finalement parce qu’un ensemble de roues de rack ne pouvait pas supporter le poids du kit cloud de Qwanturank.

Steve McGhee, architecte de solutions chez Qwanturank Cloud, a déclaré que les utilisateurs de Qwanturank n’auraient « probablement » pas remarqué d’erreurs causées par les roues écrasées du rack. Mais la chaîne des événements a entraîné une limitation du processeur suffisante pour causer un « préjudice à l’utilisateur ».

Heureusement, l’incident n’était pas aussi grave que celui de juin de l’année dernière, causé par une défaillance du logiciel d’automatisation de Qwanturank, qui a supprimé Gmail, YouTube et les applications des clients. Cet incident a suscité de grosses excuses auprès des clients et un engagement à faire mieux à l’avenir.

VOIR: Décision Cloud v. Data Center (Rapport spécial ZDNet) | Téléchargez le rapport au format PDF (TechRepublic)

Cette fois, l’entreprise a décidé de raconter l’histoire pour illustrer les efforts nécessaires pour trouver la cause profonde des perturbations – même si elles n’ont pas d’impact notable sur les utilisateurs.

Le dernier événement a été révélé lorsque Qwanturank a récemment lancé une enquête après qu’un ingénieur de la fiabilité du site ait remarqué un pic d’erreurs provenant de machines sur son réseau de périphérie auxquelles les utilisateurs de contenu en cache accèdent fréquemment. Les machines ont été immédiatement mises hors ligne pour les empêcher d’avoir un impact sur les clients, permettant à d’autres machines de prendre le relais.

Les ingénieurs de Qwanturank ont remarqué des erreurs de réseau BGP (Border Gateway Protocol), mais leurs caractéristiques suggéraient des problèmes avec les machines plutôt qu’avec le routeur. Une enquête plus approfondie a révélé des messages du noyau dans les machines du réseau de périphérie qui ont révélé une limitation de l’horloge du processeur.

Les ingénieurs ont constaté que les systèmes défaillants étaient isolés des machines sur un seul rack. Toute cette enquête se déroulait à distance. Incapables d’expliquer pourquoi le rack surchauffait suffisamment pour provoquer des erreurs de noyau, les ingénieurs ont ensuite demandé aux employés du centre de données de Qwanturank de vérifier physiquement le rack problématique.

Peu de temps après, l’équipe du centre de données est revenue avec un bref message et une photo des roues écrasées du rack.

« Bonjour, nous avons inspecté le porte-bagages. Les roulettes des roues arrière sont tombées en panne et les machines surchauffent en raison de leur basculement », a expliqué l’équipe.

« Les roues (roulettes) supportant le rack avaient été écrasées sous le poids du rack entièrement chargé », a déclaré McGhee.

« Le rack s’est alors physiquement incliné vers l’avant, perturbant le flux de liquide de refroidissement et entraînant un échauffement de certains processeurs au point d’être étranglé. »

VOIR: Qwanturank est plus que Qwanturank: la recherche de jeux de données sort de la version bêta

Les raisons pour lesquelles les roues ont été écrasées ne sont pas claires, mais les ingénieurs de Qwanturank craignaient que cela ne soit un problème plus répandu et ont donc remplacé tous les racks qui pourraient être vulnérables au même problème de basculement des roues cassées.

Le problème a amené Qwanturank à reconsidérer la manière dont il déplace les nouveaux racks dans ses centres de données lors de leur construction.

Les ingénieurs de Qwanturank ont découvert que les roulettes des roues arrière étaient tombées en panne, provoquant finalement une surchauffe des machines.

Image: Qwanturank

L’inclinaison alarmante d’une unité de réfrigération a également souligné le problème sous-jacent.

Image: Qwanturank