Skepsis gegenüber der Wolke

Null Fehler als Ziel

Cloud Computing beherrscht derzeit viele IT-Diskussionen. Doch noch immer sind einige Unternehmen skeptisch, ob die Cloud die notwendigen Sicherheits- und Verfügbarkeitskriterien erfüllt. Cloud-Provider treten diesen Sorgen mit einer Null-Fehler-Strategie entgegen.

Biathlon, Bildquelle: iStockphoto.com/technotr

Es passierte während der Cebit: Im März 2012 gehen bei Facebook stundenlang die Lichter aus. Millionen Nutzer weltweit können das soziale Netzwerk aufgrund technischer Probleme nicht erreichen. Auch mobile Anwendungen für Smartphones und Tablets sind betroffen. Solche Ausfälle gehen meist ins Geld. In einer Studie der Aberdeen Group mit weltweit 125 befragten Unternehmen 2010 kostete eine Downtime von wenigen Minuten pro Jahr im Schnitt 70.000 US-Dollar. Eine Verfügbarkeit ihrer IT von 99,999 Prozent besaßen jedoch nur vier Prozent. Diese kleine Zahl verwundert, kostet Expertenschätzungen zufolge doch schon eine Stunde Ausfall in der Produktion rund 60.000 Dollar, bei einem Online-Shop 100.000 Dollar. Den Spitzenwert erzielen Banken. Sie verlieren bei einem einstündigen Ausfall bis zu 2,5 Mio. Dollar.

Um bei solchen Worst-Case-Szenarien dennoch das Vertrauen der Cloud-Skeptiker zu gewinnen, streben externe Rechenzentrumsbetreiber ein konsequent auf „Null Fehler“ getrimmtes Management der IT-Systeme an. Dazu gehört die Hochverfügbarkeit der Services, was nach einer Definition der Harvard Research Group einer Laufzeit von 99,999 Prozent bzw. einem Ausfall von maximal fünf Minuten pro Jahr entspricht. Lediglich mit dem Kunden abgestimmte Ausfallzeiten durch Release-Wechsel, Updates oder Migrationen sind vom sogenannten „Zero Outage Computing“ ausgenommen. Aber sind solche Hochverfügbarkeitswerte überhaupt realistisch und wenn ja, wie lassen sie sich erreichen und konsequent einhalten?

Wer eine makellose Cloud zum Ziel erhebt, muss Fehler erkennen, bevor sie auftreten und sie mit allen technisch machbaren Mitteln verhindern. Außerdem muss er die Ursache für jeden möglichen Fehler genau analysieren. Letztlich basieren mehr Ausfälle auf Softwaremängeln als auf der Cloud-Architektur als solcher. Und auch hier gibt es Unterschiede, die in der Natur der Sache liegen: In der Public Cloud etwa, die sich im öffentlichen Internet befindet, können Anwender nicht von null Fehlern ausgehen. Dafür müssen sie für viele Leistungen hier auch nichts bezahlen. So können sie etwa Gigabytes an Speicherplatz kostenfrei beziehen. Im Gegenzug müssen sie auf Serviceleistungen verzichten.

Mehrfach gesichert

Anders sieht die Sache in der Private Cloud aus: Über eigene, von Ende zu Ende individuell ausgestaltete Netzlösungen können Dienstleister wie T-Systems Hochverfügbarkeit garantieren, wenn ihre ITK-Architekturen eine hohe Fehlertoleranz und -transparenz aufweisen, über eingebaute Funktionen zur Vorbeugung verfügen und durch kontinuierliche Operationsüberwachung alle Vorgänge im Netz sichtbar machen. Darüber hinaus müssen sie den Betrieb über selbstheilende intelligente Software ohne manuelles Eingreifen so rasch wieder automatisch aufnehmen können, dass Anwender die Systeme ohne spürbare Unterbrechung weiter nutzen können.

Ein Beispiel für hohe Fehlertoleranz sind RAID-Systeme (Redundant Array of Independent Disks). Sie spiegeln identische Daten selbstständig parallel auf zwei oder mehr voneinander getrennten Speichermedien. Fällt ein System aus, wirkt sich dies nicht auf die Verfügbarkeit des Gesamtsystems aus, denn die gespiegelten Systeme arbeiten unterbrechungsfrei weiter. Der Anwender bemerkt davon nichts. Dazu kommt, dass die RAID-Systeme über Fehlerfrühwarnsysteme verfügen und einen Großteil der Fehler ohne Eingriffe durch Techniker selbst korrigieren.

Besonders kritisch für die Gesamt-IT sind allerdings die sogenannten Single Point of Failure, kurz SPoF. Dies sind Speicher-, Rechner- oder Netzelemente, die nur einmal vorkommen und bei auftretenden Fehlern ganze Systeme zum Erliegen bringen können. Da es im Vergleich zu anderen Bereichen relativ teuer und aufwendig ist, diese Elemente zu spiegeln, gehen manche IT-Provider das Risiko ein und verzichten auf diesen Schritt. Wer allerdings auf Zero Outage setzt, eliminiert auch dieses Risiko. Zusätzlich schützt er das Rechenzentrum mit einer unterbrechungsfreien Stromversorgung (USV) vor einem gravierenden Ausfall. Fällt eine Applikation aus, bildet sich aber auch bei einem kurzfristigen Wechsel auf das Ersatzsystem eine Lücke, zum Beispiel in Form verlorener Transaktionen. Das ausgefallene System muss darauf selbstständig reagieren und alle übersprungenen Verarbeitungsschritte nach dem Wechsel auf die Ersatzanwendung später nachholen.

Datenschutz zählt genauso

Auch den Datenschutz sehen viele deutsche Unternehmen mit Sorge, so das Ergebnis des vom Marktforschungsinstitut TNS Infratest veröffentlichten Life-Reports „Standortvorteil Datensicherheit“. Sie wollen ihre Informationen nach dem Bundesdatenschutzgesetz verarbeitet wissen. Das lässt sich jedoch nur gewährleisten, wenn das Rechenzentrum sich in Deutschland befindet. Allerdings existiert innerhalb der Europäischen Union mit der EU-Richtlinie 95/46/EG insgesamt ein adäquater Mindeststandard für den Datenschutz. Derzeit arbeitet die EU zudem an technischen und juristischen Standards für die Wolke. Dies ist dringend notwendig: europaweit einheitliche Richtlinien bringen sowohl Cloud-Providern als auch -Nutzern mehr Planungssicherheit.

Qualität geht nicht ohne die Mitarbeiter. Von daher müssen Cloud-Provider auch ihre Mitarbeiter an allen Standorten und gegebenenfalls über Zeitzonen hinweg auf einheitliche Standards und Prozesse einschwören. Mehr als 50 Prozent aller Ausfälle gehen laut Studien auf das Konto von menschlichem Versagen. Die Schulungen gehen hier in Richtung Qualitätsmanagement als elementarer Bestandteil der Firmenkultur. Dazu gehören ein zentraler Trainingsplan, global einheitliche Handbücher und umfassende Informationen seitens der Führungsspitze.

Jeder Mitarbeiter muss daran mitarbeiten, einen potentiellen Fehler gar nicht erst entstehen zu lassen. Dazu gehört die Frage nach den möglichen Ursachen. Die Devise lautet: „Brandschutz statt Brandbekämpfung“. Im Falle eines Falles dürfen Mitarbeiter zudem keine Angst davor haben, einen Fehler einzugestehen, damit dieser sich künftig vermeiden lässt. Daneben trägt ein zentral organisiertes Expertenteam dazu bei, schnell Lösungen zu finden und diese überall ins Unternehmen zu spielen. Bei einem gravierenden Ausfall ruft der Chef vom Dienst das Team in kürzester Zeit zusammen. Mitarbeiter im betroffenen Kundenunternehmen verfolgt das Geschehen über ein Kommunikationssystem.

Qualitätsmanagement ist ein fortlaufender Prozess, um das nötige Wissen kontinuierlich und systematisch zu vermehren. So wird es zwar niemals möglich sein, null Fehler in den Cloud-Abläufen zu garantieren – das schaffen selbst die Klassenbesten nicht –, aber eine sichere Verfügbarkeit von über 99,999 Prozent liegt durchaus im Rahmen des Machbaren. Unternehmen sichern sie über Servicevereinbarungen mit dem Dienstleister ab.

Bildquelle: iStockphoto.com/technotr

©2019Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok