Fluch und Segen des guten Rufs

Cloud-Ausfälle und Gegenmaßnahmen

Der Ruf der Cloud-Provider ist gut, da sie ihre Dienste hochverfügbar und störungsfrei betreiben. Das verleitet manche IT-Verantwortliche dazu, zu wenig über interne Ausfallkonzepte nachzudenken. Für den Ernstfall sind sie schlecht vorbereitet.

Backup-Taste auf Tastatur

Nur wenige Cloud-Nutzer rechnen mit Ausfällen und richten sich darauf ein, indem sie Ausfallkonzepte und Maßnahmen konzipieren und regelmäßig testen.

Würde die Cloud eines großen Public-Cloud-Providers ausfallen, wären die Dienste von mehreren 100.000 Kunden weltweit betroffen. Es ist eine große Leistung dieser globalen Dienstleister, dass solche Ernstfälle selten geschehen. In einem Bericht des Finanzdienstleisters Lloyds vom Januar 2018 – „Cloud Down“-Report – werden über den Zeitraum von Februar 2012 bis Februar 2017 acht Totalausfälle aufgelistet.

Aber nur wenige Nutzer rechnen mit Ausfällen und richten sich darauf ein, indem sie Ausfallkonzepte und Maßnahmen konzipieren und regelmäßig testen. So zeigen Ergebnisse aus der Veritas-Studie „Truth in Cloud“, dass 69 der 100 befragten deutschen Firmen alle Verantwortung für Datensicherheit, Datenschutz und Compliance an ihre Cloud-Service-Provider delegieren können. Diese Firmen werden für den Ernstfall wahrscheinlich schlecht vorbereitet sein. Dabei hebt jeder Provider hervor, dass er zwischen sich und seinem Kunden das „Shared Responsibility“-Modell etablieren möchte. Der Kunde bleibt immer für seine Daten, Applikationen und deren Compliance verantwortlich.

Heutige Anwendungen sind oft mehrschichtig und komplex strukturiert. Sie binden Ressourcen verschiedener Lokationen ein und koppeln möglicherweise unterschiedliche Cloud-Dienste an. Je komplexer ihre Struktur ist und je mehr Daten während des Ausfalls verloren gehen, desto länger wird ihre Wiederherstellung dauern. Zeit geht verloren, weil IT-Abteilungen für diese Aufgabe oft mehrere isolierte Werkzeuge einsetzen und deren Ergebnisse manuell abgleichen. Alle wichtigen Schritte, Messkriterien, Performance-Daten, in denen der Umschaltprozess oder Failover im Ernstfall definiert wird, werden nicht von einer übergreifenden Instanz Ende zu Ende automatisch überwacht. Jedes Tool etabliert diese Kriterien in seiner isolierten Systemwelt. Für die Übergänge von einem in den anderen Verantwortungsbereich greifen IT-Verantwortliche auf manuelle Handgriffe und Prozesse zurück und niemand kann ad hoc einen Gesamtüberblick über den aktuellen Gesundheitszustand der kritischen Dienste liefern. Die Wiederherstellung wird schwer kalkulier- und beherrschbar. Es gibt allerdings Lösungsansätze mithilfe sogenannter Business-Continuity-
Konzepte wie der Resiliency Platform von Veritas. Sie helfen dabei, mehrstufige Applikationsarchitekturen und ihre Verfügbarkeit zu kontrollieren und den Ausfallprozess reibungslos zu testen.

Zentrale grafische Oberfläche

Solche Konzepte spielen nahtlos mit den Systemen der führenden Cloud-Anbieter zusammen, nutzen deren Protokolle, Dienste und Data Mover und sind vom Cloud-Provider zertifiziert. Sie können so die Struktur der Applikation sowohl on premise als auch in der Cloud automatisch mit geringer Fehlerquote per Autodiscovery erfassen und so alle wichtigen zu sichernden Elemente selbst finden.

Alle Ergebnisse laufen in einer zentralen grafischen Oberfläche zusammen, die es dem Kunden erlaubt, den Disaster-Recovery-Prozess der Dienststruktur per simplem Drag and Drop zu modellieren. Dann lässt sich der Vorteil einer solchen übergreifenden Instanz deutlich ausspielen – ihr Automatismus, der in der Krisensituation einen komplexen Prozess abwickelt, für den die IT-Leitung vorher klar messbare Kriterien für das Failback und das Failover vorgeben hat.

Bildquelle: Thinkstock/iStock

©2018Alle Rechte bei MEDIENHAUS Verlag GmbH

Unsere Website verwendet Cookies, um Ihnen den bestmöglichen Service zu bieten. Durch die weitere Nutzung der Seite stimmen Sie der Verwendung zu. Weitere Infos finden Sie in unserer Datenschutzerklärung.

ok