Ausfallzeiten

Cloudservices sind von Hochverfügbarkeit weit entfernt

Vor allem die großen Cloud-Anbieter haben regelmäßig Ausfälle. Wird ihr enormes Wachstum zum Problem?

Erinnert sich jemand an die große Skepsis gegenüber dem Cloud Computing? Das ist (fast) kein Thema mehr. Viele größere Unternehmen weltweit setzen auf die Cloud. Selbst im notorisch risiko-aversen Deutschland nutzt eine Mehrheit aller Firmen Cloudservices wenigstens für einige Aufgaben.

Doch diese Entwicklung heißt nicht, dass Cloud Computing keine Schattenseiten hat. So gibt es beispielsweise das Problem der Downtime. Das sollte durch den Einsatz der Cloud eigentlich der Vergangenheit anhören, denn zahlreiche Anbieter werben mit „100 Prozent Uptime“. Ganz so ist es allerdings nicht, denn auch Cloud-Dienste fallen gelegentlich aus.

Das US-Branchen Magazin CRN hat Mitte des Jahres eine Liste der größten Ausfälle in der ersten Jahreshälfte 2016 veröffentlicht. Einige Beispiele: Ende Januar konnten viele Nutzer von Office 365 mehr als eine Woche lang nicht auf Ihre E-Mails zugreifen. Grund war ein fehlerhaftes Software-Update. Im März gab es vor allem in der Region Europa einen Ausfall der Salesforce-Server. Einige Kunden konnten die Anwendung zehn Stunden lang nicht erreichen. Im April fielen sämtliche Rechenzentren für die Google Compute Engine zwischen 18 und 73 Minuten lang aus. Im Juni waren die Amazon Web Services (AWS) etwa 10 Stunden lang in der Region Australien ausgefallen, wegen eines Stromausfalls aufgrund eines Sturms.

In funktionierende Systeme niemals eingreifen

Doch das ist nur die Spitze des Eisbergs. Die zur Gartner Group gehörenden Analysten von CloudHarmony haben 2015 die Verfügbarkeit der großen Anbieter überwacht und stellten beispielsweise bei AWS im vergangenen Jahr 56 Ausfälle fest. Insgesamt war die Amazon-Cloud zweieinhalb Stunden lang überhaupt nicht erreichbar. Damit war das Angebot des Cloud- und Handelsriesen 2015 das zuverlässigste Angebot mit der geringsten Downtime.

Dies zeigt, dass Clouddienste von 100 Prozent Verfügbarkeit ziemlich weit entfernt sind. Der Wert der bekannten und von den unterschiedlichen Untersuchungen erfassten Dienste liegt irgendwo im Bereich von 99 Prozent - in dieser Verfügbarkeitsklasse sind etwas mehr als dreieinhalb Tage Ausfallzeit pro Jahr drin. Bei 99,9 Prozent Verfügbarkeit wären übrigens nur knapp unter neun Pannenstunden pro Jahr erlaubt. Das fällt bereits unter Hochverfügbarkeit und in der Königsklasse der Highend-Rechenzentren wird mit der Verfügbarkeitsklasse 5 geworben: 99,999 Prozent oder maximal fünf Minuten Auszeit im Jahr.

Auch hiervon sind die bekannten großen Cloud Services recht weit entfernt, auf lange Sicht erreichen sie bestenfalls die drei Neunen. Doch woran liegt das? Diese Frage haben sich auch Forscher der University of Chicago und der Surya University in Indonesien gestellt. In einem Forschungsbericht stellen sie eine größere Längsschnittuntersuchung von fast 600 Cloud-Ausfällen in den Jahren 2009 bis 2015 vor. Sie haben den Blick auf die Ursachen gerichtet, soweit die Anbieter hierzu Angaben gemacht haben.

Auch wenn Stromausfälle zu den bekannteren Ursachen gehören, handelt es sich in erster Linie um Probleme, die mit der Software zu tun haben. So entstehen sehr viele Auszeiten, wenn die eingesetzte Plattform-Software aktualisiert oder ihre Konfiguration aktualisiert wird. Fehlbedienungen auf Betreiberseite sind dagegen eher selten, ebenso wie Störungen durch Hardware-Fehler. Diese Rangfolge spiegelt die Organisation von Rechenzentren wieder: Hardware ist mehrfach redundant vorhanden und nur ausnahmsweise ein Risiko. Aber gegen Seiteneffekte von Konfigurationsänderungen oder Software-Updates ist noch kein Kraut gewachsen.

Cloud Computing ist komplex und nicht risikofrei

Doch hinter diesen zahlreichen Fehlerursachen findet sich nach Ansicht der Autoren des Forschungsberichts noch eine verborgene Ursache: Ungenügende Prozesse bei der Fehlerbehebung. Es mangele in einigen Fällen an ineinandergreifenden Vorkehrungen, mit denen die Auswirkungen von Störungen begrenzt werden. Hier müssen drei Prozesse ineinandergreifen: Eine umfassende Störungserkennung, eine fehlerfrei arbeitende Ausfallsicherung und funktionierende Backup-Komponenten.

Daran zeigt sich, dass Cloud Computing eine ziemlich komplexe Angelegenheit für die Anbieter ist. Hieraus entstehen gewisse Risiken, die vor allem die gerne „Hyperscaler“ genannten Cloud-Riesen AWS, Google und Microsoft betreffen. Sie vereinen derartig viele Unternehmen als Kunden auf sich, dass ein großflächiger Ausfall erhebliche Folgen haben kann. Und diese Unternehmen wachsen weiterhin.

Steve Brazier, CEO des Marktanalysten Canalys, warnte in seiner Keynote auf einer Konferenz in Barcelona vor den erheblichen Folgen eines weiterhin unbegrenzten Wachstums der großen drei. Er geht sogar so weit, von steigenden Risiken in den nächsten Jahren zu sprechen. Je mehr Unternehmen sich auf einige wenige Cloudservices konzentrieren, desto größer werden die Folgen eines Ausfalls - bis hin zu einer globalen Wirtschaftskrise, meint Brazier.

Das spricht natürlich für eine stärkere Dezentralisierung auch der Cloud-Dienste. Es ist kein Naturgesetz, dass durch die „Abstimmung mit der Maus“ Quasi-Monopole entstehen. Unternehmen, die ihre wirtschaftlichen Risiken gering halten wollen, können auch kleinere Anbieter wählen. Die sind laut dem Forschungsbericht aus Chicago nicht schlechter als die Hyperscaler. Deutsche Unternehmen sind hier ohnehin auf einem Sonderweg: Aus Datenschutzgründen werden häufig deutsche Anbieter oder zumindest deutsche Rechenzentren bevorzugt.

Bildquelle: Thinkstock

©2019Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok