Totalausfall?
Proudly completedPublicbug
Actions

Assigned To

Authored By

	curtis
	Oct 30 2025, 5:03 PM

Description

Fehlerbeschreibung

bitte beschreibe den aufgetretenen Fehler so ausführlich wie möglich

Was ist passiert?:
Wiki, Phorge ab ca. 15:40 nicht erreichbar!

Weitere Informationen

Systemdetails (Name/Version des Browsers, Softwareversion der Andwenudng)

Zusatzinformation
(Screenshots, etc.):

Details

Schwierigkeitsgrad: Beginner

Fehlerdetails (Bug Details)

Einordnung: Unklar
Produktion: Yes

Related Objects
Search...

		Status	Subtype	Assigned	Task
		Done	bug	muke	T683 Totalausfall?
		Done	bug	muke	T684 Daemons laufen nicht

Event Timeline

curtis created this task.Oct 30 2025, 5:03 PM

Restricted Application triaged this task as Critical priority. · View Herald TranscriptOct 30 2025, 5:03 PM

Restricted Application added a project: Bugtracker. · View Herald Transcript

Restricted Application added a subscriber: muke. · View Herald Transcript

Kannst du dir Ursache ermitteln und ggf. Präventivmaßnahmen ableiten?

muke closed subtask T684: Daemons laufen nicht as Done.Oct 30 2025, 9:12 PM

Totalausfall des Servers

Tatsächlich gab es einen Totalausfall des Servers im Rechenzentrum. Laut Anbieter waren mehrere System betroffen.

Status

$ uptime
 21:17:14 up  4:16,  1 user,  load average: 7,70, 7,73, 7,47

Zeitpunkt, 21:18 Uhr
Zum jetzigen Zeitpunkt läuft der Server und alle Dienste wieder ordnungsgemäß.

Die Zustellung von E-Mails bei einem Ausfall wird pausiert, es kann dadurch in den nächsten - nis zu 24 Stunden - zu verspäteter Zustellung von E-Mails kommen. Ein Verlust von E-Mails ist sicher ausgeschlossen.

Ursache

Unklar, bislang ich keine weitere Information durch den Anbieter erfolgt.
Fest steht allerdings:

Ausfall geschah außerhalb unseres Systems
Anbieter hat recht zügig reagiert, um die Ausfallzeit Minimal zu halten.

Möglichketen der Prävention

Lassen sich derartige Ausfälle künftig vermeiden?
- Nein, solange wir mit einem Serverstandort arbeiten ist es nicht möglich Infrastruktur-Ausfälle dieser Art zu kompensieren. Ausfälle der Virtualisierung, des Backbones oder Interfaces auf dem der Server läuft sind möglich und unvorhersehbar. Abhilfe wäre nur möglich mit:
  - mindestens ein weiterer Server an einem anderen Standort
  - zusätzlich die Möglichkeit den Traffic gezielt dorthin zu leiten.
- Ein solches Setup ist komplex uns zum gegenwärtigen Zeitpunkt und steht in keinem Verhältnis zum Nutzen.
Wie können wir zukünftig besser reagieren?
- Da wir bei einer One-System-Solution, wie sie im Moment existiert auch alle Kommunikationskanäle verlieren, wäre es an der Stelle sinnvoll sich Gedanken über einen zusätzlichen, externen Kommunikationskanal zu machen. Dies könne zum Beispiel eine SocialMedia-MainPlattform sein, oder eine extern gehostete Status/Support Page (würde ich abraten), oder alternativ auch ein Chat, (sowas wir Discord?). Intern haben mich die Ausfallmeldungen über Telefon erreicht, was kommunikativ ausreichend ist.

	F4469: image.png
	Oct 30 2025, 9:36 PM

Totalausfall?Proudly completedPublicbugActions