Analyse & Problemstellung
Im Rahmen von Wartungsarbeiten am 08.01.2026 kam es durch eine Fehlkonfiguration der Docker-Mounts in Kombination mit manuellen Bereinigungsversuchen zu einem Verlust der produktiven Datenbank-Inhalte.
T837: Phorge Datenverlust nach Docker-Upgrade
Das Hauptproblem lag in der Abhängigkeit von einem einzigen Sicherungsmechanismus (Full-Volume-Backup des Host-Anbieters), der im entscheidenden Moment kein aktuelles Delta der letzten Arbeitstage lieferte.
Um die Resilienz des Systems zu erhöhen, wird die Backup-Strategie von einer rein infrastrukturellen Lösung auf eine anwendungsspezifische, mehrstufige Absicherung umgestellt.
Strategische Zielsetzung
Die neue Strategie basiert auf drei Säulen:
- Redundanz: Trennung von logischen (Dump) und physikalischen (Data-Dir) Sicherungen.
- Unabhängigkeit: Geografische und systemische Trennung der Backup-Ziele (3-2-1 Regel).
- Prozess-Sicherheit: Verpflichtende, skriptgestützte Sicherung unmittelbar vor jedem manuellen Eingriff oder Upgrade.
Geplante Maßnahmen (Technische Ableitung)
1. Datenbank-Sicherung (Dual-Layer)
- Logisches Backup: Automatisierte Erstellung von SQL-Dumps zur Gewährleistung der Portabilität und einfachen Wiederherstellung einzelner Tabellen/Datensätze.
- Physikalisches Backup: Sicherung des Datenbank-Verzeichnisses (unter Ausschluss transienter Laufzeitdateien wie Redo-Logs), um im Katastrophenfall ein schnelles "Drop-in" Recovery zu ermöglichen.
2. File- & Repository-Persistence
- Repository-Sicherung: Synchronisation der verwalteten VCS-Daten auf unabhängige Speichersysteme.
- Attachment-Sicherung: Dedizierte Sicherung der binären Anhänge (File-Volumes), um die Integrität der Dokumentation (Tickets/Wikis) sicherzustellen.
3. Distribution & Offsite-Storage
- Implementierung eines automatisierten Transfers der Backup-Artefakte auf ein Sekundärsystem unmittelbar nach Abschluss der lokalen Sicherung.
4. Präventive Absicherung (Prozessual)
- Pre-Upgrade-Sicherung: Entwicklung eines Sammel-Skripts, welches vor Systemeingriffen manuell getriggert wird und den aktuellen Stand "einfriert".
- Dokumentation: Erstellung eines Disaster-Recovery-Handbuchs basierend auf den "Lessons Learned" dieses Incidents.
Definition of Done
- Automatisierte Backup-Jobs sind aktiv und validiert.
- Der Offsite-Transfer auf das Sekundärsystem ist erfolgreich getestet.
- Das Pre-Upgrade-Skript steht für das nächste Wartungsfenster zur Verfügung.
- Ein Wiederherstellungstest (Restore-Check) wurde erfolgreich durchgeführt.