Am Samstag, dem 2. Februar 2008 kam es gegen 11 Uhr zu einem Stromausfall auf einer der Rechenzentrumsflächen, der auch unseren Server betroffen hat. Für die damit verbundenen Unannehmlichkeiten möchten wir uns hiermit entschuldigen. Die Qualität und Verfügbarkeit unserer Angebote ist uns sehr wichtig, weshalb wir uns über die aufgetretenen Probleme selbst besonders ärgern.
Leider lag die Problemurache jedoch außerhalb unseres Einflussbereiches, sondern hing mit einem defekten Relay zusammen. Dieses Relay ist dafür verantwortlich, bei innerhalb des Rechenzentrums notwendigen Arbeiten an der Stromversorgung eine unterbrechungsfreie Umstellung der Stromanbindung sicher zu stellen. Dies betrifft nicht z.B. einen regulären Stromausfall, bei dem innerhalb der regulären Stromanbindung automatisch eine Umschaltung auf USV- und Generatorstrom erfolgt, sondern nur Arbeiten an einer zentralen Stelle innerhalb der Stromversorgung. In diesen seltenen Fällen erfolgt eine vollständige Umschaltung vom regulären Stromnetz (Stromnetz -> Trafos -> USVs -> USV-Bus -> Unterverteilung der einzelnen Flächen) auf eine direkte Verbindung des Generatorstroms mit der einzelnen Flächenunterverteilung. Diese Umschaltung hat in allen Flächenbereichen bis auf einer fehlerfrei funktioniert. Im Falle der betroffenen Fläche kam es durch den Defekt des Relays jedoch zu einer unkontrollierten Stromabschaltung, in dessen Folge rund 770 ManagedServer „hart“ abgeschaltet wurden.
Unser Operationsteam hat unmittelbar nach dem Auftreten des Defektes mit der Fehlerbehebung und Wiederinbetriebnahme der einzelnen Server begonnen. Dieser Vorgang hat sich aufgrund der großen Anzahl betroffener Geräte über eine Zeitspanne bis 15:00 Uhr verteilt. Um 15:00 Uhr war jedoch auch der letzte betroffene ManagedServer wieder in Betrieb. Dies hängt auch damit zusammen, dass wir jeden einzelnen Server auf mögliche Hardwaredfekte hin überprüfen mussten und in vielen Fällen ein relativ lange dauernder „Filesystem-Check“ erforderlich geworden ist. Soweit bei einem Server technische Defekte festgestellt worden sind, erfolgte ein Umbau der Festplatten in die bereitstehenden Standby-Ersatzserver.
Derzeit klären wir mit unserem Partner und Rechenzentrumsbetreiber Level3, wie es genau zu dem Defekt bei dem Relay kommen konnte. In anderen Fällen, zuletzt im Dezember 2007, hat das Relay fehlerfrei funktioniert und auch bei einem kürzlich manuell durchgeführten Test traten keine Schwierigkeiten auf. Nach aktuellem Kenntnisstand lag dem Ausfall daher der nicht vorhersehbare und nicht vermeidbare Defekt des Bauteils zu Grunde. Menschliches Versagen, der Einsatz minderwertiger Komponenten oder ein anderer, vermeidbarer Fehler scheint sich nach den bisherigen Erkenntnissen ausschließen zu lassen.
Selbstverständlich ist uns bewusst, dass ein Ausfall für Sie als betroffenen Kunden immer und unabhängig von der Ausfallursache ärgerlich ist.
Selbstverständlich laufen davon unabhängig die Recherchen hinsichtlich der Problemursache weiter. Sollte sich – entgegen des aktuellen Kenntnisstandes – doch noch eine vermeidbare Problemursache feststellen lassen, werden wir selbstverständlich alle verfügbaren Maßnahmen ergreifen, um eine Wiederholung in der Zukunft ausschließen zu können.