14 lahmgelegte Geschäftssysteme — in unter einer Minute zurück, und danach selbstheilend
Bei einem Kunden mit mehreren Mandanten liefen 14 Odoo-Instanzen auf gemeinsamer Infrastruktur — die zentralen Systeme für das Tagesgeschäft. Ein Datenbank-Upgrade auf eine neue Hauptversion riss sie alle gleichzeitig in einen dauerhaften Fehlerzustand: Die Dienste starteten nicht mehr, alle 14 Systeme standen still.
Der kritische Punkt bei so etwas ist nicht nur, ob man wiederherstellt, sondern wie schnell. Jede Minute Stillstand kostet, und 14 Systeme von Hand einzeln wieder hochzuziehen, dauert — wertvolle Zeit, in der niemand arbeiten kann.
Wir haben die Ursache des Fehlerzustands identifiziert und alle Instanzen wieder lauffähig gemacht. Aber wir haben es nicht dabei belassen: Wir haben einen Selbstheilungs-Mechanismus eingebaut, der genau diesen Fehlerzustand künftig automatisch erkennt und den betroffenen Dienst kontrolliert neu startet — ohne dass jemand eingreifen muss.
Das Ergebnis: Verifizierte Wiederherstellung in rund 45 Sekunden statt stundenlangem Stillstand. Und der eigentliche Gewinn liegt in der Zukunft: Aus einem Totalausfall, der einen Notfalleinsatz erforderte, ist ein Vorfall geworden, den das System selbst abfängt, bevor ihn überhaupt jemand bemerkt.