Wartungsarbeiten fast ohne Downtime

Wartung fast ohne Downtime

Wartungsarbeiten finden bei BB-ONE.net normaler Weise im Verborgenen statt. Doch wie heisst es so schön? Aussergewöhnliche Ereignisse erfordern aussergewöhnliche Maßnahmen. Deshalb kündigte die BB-ONE.net zum Jahresbeginn größere Wartungsarbeiten an. Denn sämtliche Kunden-Server sowie alle Cloud-Server mussten wenigstens einmal neu gestartet werden. Den Grund hierzu lieferten „Meltdown & Spectre“.

Wartungsarbeiten nicht leicht gemacht

Da sich die BB-ONE.net ausschliesslich an Geschäftskunden mit professionellen und kommerziellen Geschäftsanwendungen richtet, ist das Thema „Downtime“ von besonderer Bedeutung. Denn diese entsteht – wenn auch minimal – wenn Server durchgestartet werden müssen. Das kann man brutal mit einem unangekündigten Massen-Reboot erledigen. Oder man macht es auf die „feige“ Art: einzeln in Abstimmung mit den Kunden und Schritt für Schritt. Dazwischen gibt es natürlich Abstufungen, doch als das Team der BB-ONE.net alle Optionen in der Planung durchspielte, stand fest: Wir gehen das Thema anders als „die anderen“ an.

So lieber nicht

Die meisten Wettbewerber schienen den Dialog mit den Kunden zu scheuen. Denn die Sicherheitslücken um Meltdown und Spectre, die mit diesen Maßnahmen geschlossen werden sollten, werfen natürlich auch viele Fragen auf. Deshalb entschieden sie sich vermutlich auch verständlicher Weise für folgendes Vorgehen:

  1. Variante
    Die Kernel-Updates bzw. Microcode-Updates wurden eingespielt und dann die Server durchgestartet.
  2. Variante
    Man richtete Wartungsfenster ein, informierte den Kunden darüber. Und dann wurden die Kernel-Updates bzw. Microcode-Updates eingespielt und die Server durchgestartet.

Dabei kam es leider zu allen möglichen Problemen. Das liegt naturgemäß in der Komplexität von Serversystemen und an dem zu lösenden Problem der Sicherheitslücken selbst. Sie betreffen den Kernel, also das Herzstück eines jeden Servers. Kurzum: Es passierte einiges, leider auch viel Unerwünschtes:

  1. Server starteten nicht sauber, Kunden hingen dadurch regelrecht in der Luft.
  2. Der Neustart dauerte lange, teilweise bauartbedingt, teilweise auch wegen automatischer Plattenscans wegen langer Laufzeit.
  3. In einem speziellen Fall waren große Teile der Kundschaft drei Tage mehr oder weniger „tot“.
  4. In jedem Fall gab es unkalkulierbare Downtimes.

So geht’s auch: Wartungsarbeiten fast ohne Downtime

Die neue, zweite Geschäftsführerin der BB-ONE.net kam auf die Idee, das exklusive ActiveBackup ausnahmsweise für alle Kunden (auch die, die diesen Services nicht bestellt hatten) zu verwenden, um notwendige Downtimes auf wenige Sekunden zu begrenzen. Natürlich waren die „Tekkis“ des Unternehmens zunächst wenig begeistert. Denn diese mussten eigentlich sehr gute Idee in die Tat umsetzen. Und das hieß Überstunden machen. Aber als beide Geschäftsführer entschieden: „Ja, so machen wir das“, wurde ein Projektteam gebildet, das die Einrichtung der ActiveBackups nunmehr für alle Kunden sowie die Umsetzung der eigentlichen Wartungsarbeiten plante und durchführte.

Der Nutzen der ActiveBackup Methode stellte sich einmal mehr unter Beweis. Denn die Grundfunktion, eine lauffähige Kopie des jeweiligen Kundenservers im Fehlerfall (der hierbei geplant war) vorzuhalten und diese live zu schalten, verhinderte eine spürbare Downtime. Die Internetdienste waren zu jeder Zeit erreichbar.

Gut vorgesorgt

Glücklicher Weise hatte die BB-ONE.net bereits im Sommer gut vorgesorgt. Wenn die Controller des Unternehmens bisher die Kosten für die Erweiterung der Speicherkapazitäten bemängelten, so lieferte die aktuelle Situation nachträglich gute Gründe. Denn bei dieser speziellen Maßnahme hatte man es mit Datenmengen und engen Zeitfenstern zu tun, welche Standard Speicher-Kapazitäten schnell an ihre Grenzen hätte treiben können.

Als weitere Herausforderung stellte sich dann die zeitliche Planung inclusive Reihenfolge und Kunden-Information heraus. Doch dank guter Vorarbeit waren bereits zum Zeitpunkt des Verfassens dieses Artikels rund 60 % der Kundenserver „gepatched“. Und das auf ihrer eigenen, gewohnten Hardware-Umgebung. Es kam nur zu geringen „Reibungsverlusten“, unter anderem weil fleißige Redakteure den Pflegestopp nicht mitbekamen. In zwei Fällen arbeiteten Kunden während des Wartungsfensters an einem Datenbankproblem. Doch auch hier konnte der „Holperer“ in enger Zusammenarbeit mit beiden betroffenen Kunden beseitigt werden.